
雲計算,曾被無數科技大廠視為「市值壓艙石」,如今似乎遭遇了「滑鐵盧」。
老生常談的市場增速是最直觀的體現。IDC近期發布的《中國公有雲服務市場(2023上半年)跟蹤報告》顯示,中國公有雲市場的IaaS和PaaS增長僅為15.9%,是近三年的最低水平。
原因可以歸結於兩點。一是企業IT預算的增長未達預期。後疫情時代下的企業,在預算制定和支出上變得更加謹慎,他們開始尋求更高效、成本更低的方案。這在很大程度上抑制了公有雲市場的增長。
其次,互聯網雲服務商為了保持利潤,做出了戰略上的調整。競爭加劇的市場環境中,這些廠商從追求收入轉變為追求盈利,放棄了部分非盈利項目。這也導致了市場整體收入增長的放緩。
還有更為嚴重的挑戰,可能正直接威脅到雲計算技術基石的地位。
就在近段時間,海外,馬斯克的X平台選擇離開雲端以節約成本;國內,多家互聯網平台因雲產品引發了網站宕機。偶發的幾起事件,匯聚在一起,對雲計算的效率和可靠性提出質疑。
在成為科技大廠多年追求的熱門領域之後,雲計算如今面臨著其發展歷程中最艱難的時刻。
X「下雲」開先河
2023年10月27日,X的工程團隊發布了一篇詳盡的長帖,對過去一年中平台架構所做的調整進行了總結。
最引人矚目的是X平台嘗試「下雲」所帶來的顯著成本變化。通過優化對雲服務提供商的使用,X平台實現了月度雲成本的60%降低。
具體來說,團隊將所有媒體/數據塊工件從雲中遷移出來,降低了60%的雲數據存儲大小,並將雲數據處理成本降低了75%。

這一策略的調整明顯事出有因。據外媒報道,X平台之前每年在AWS上的開銷高達1億美元。馬斯克收購後指示平台削減雲服務和額外的伺服器空間,以期望每年節約高達10億美元的基礎設施成本。
儘管實際成效尚未完全明朗,但根據最新公布的數據,「節約60%的月度雲成本」意味著X平台每年可能節省高達6000萬美元。
這一成績引起了「下雲」倡導者的極大關注,其中包括Ruby on Rails框架創始人David Heinemeier Hansson(簡稱DHH)。今年6月,DHH 宣布其創始公司 37Signals 時隔6個月完成「下雲」,將所有應用遷移至本地硬體。即使預留50萬美元用於意外開支,5年內也可節約700萬美元的雲成本。

他在《X celebrates 60% savings from cloud exit》一文中指出,對於首席財務官和投資者而言,這種成本節約是無法忽視的。如果像X平台這樣的大型企業能夠在員工數量大幅減少的同時,通過「下雲」措施獲得巨額利潤,那麼對於其他大型企業而言,「下雲」無疑是一個值得探索的領域。
不過,該觀點也有一些質疑的聲音。例如,儘管X平台在雲計算上的支出減少了60%,但他們在本地化操作後的具體成本並未公開,這讓人們對整體成本效益產生了疑問。
業內專家也指出,每年都有新聞報道客戶因為彈性伸縮雲產品價格昂貴而選擇「下雲」,節省了大量預算。但這並不意味著彈性伸縮雲產品不適合所有客戶。這些新聞背後的真正問題,可能是產品經理和銷售團隊的失職,他們未能合理設置價格策略,導致客戶流失。
傳統意義上,企業上雲被認為是一種節省成本的策略。雲計算的銷售人員經常向企業領導強調,通過遷移到雲端的數字化管理轉型,可以在多個方面實現成本節約。其中包括數據管理、機房建設、專業運維人員的費用,以及其他與系統維護相關的綜合成本。
而雲服務的立錐之地,一個關鍵優勢在於靈活性和可擴展性。這意味著企業可以實時調整資源,而不需要承擔傳統IT基礎設施所帶來的高額成本和時間投入。
因此很長一段時間內,上雲被視為企業降低運營成本、提高效率的理想選擇。
然而,隨著X平台開了「下雲」先河,人們開始重新審視雲計算的成本效益,考慮雲計算與本地化運營之間的平衡。
大廠宕機扯下遮羞布
近期,國內大型互聯網平台的網站服務紛紛遭遇崩潰,演繹了一出黑色幽默戲碼。
紅星資本局的報告顯示,近幾年每當應用程序崩潰,用戶便會迅速匯聚至各大社交平台展開討論。當這些討論達到一定程度時,媒體便會關注這些事件,並可能使其登上各大平台的熱搜榜。以此為依據,2022年發生的崩潰事故大約有9起,而今年已有14起。

這一增長趨勢反映出技術問題的普遍性。
一位資深技術專家在分析宕機現象時,提出了IT系統的三層結構模型:最頂層為應用軟體,中間層是雲平台,最底層則是IT硬體。
他指出,當底層的IT硬體出現問題時,通常可以通過增加冗餘系統或快速更換硬體來解決。但問題若發生在雲平台層面,其影響會顯著擴散,不僅影響單個應用,而且可能涉及多個應用。另一方面,如果應用可以打開但無法正常使用,則通常指嚮應用軟體層面的問題。
據此可以判斷,近期的App宕機潮與雲平台和應用軟體層面的問題密切相關。這一系列事件再次挑戰了雲服務長期以來的可靠性口碑。
阿里系產品近期的集體故障顯然與其雲服務的使用密切相關。其影響之廣,不僅是技術層面的問題,也與阿里採用的雲服務特性有很大關係。
Flexera的《2022年雲狀態報告》指出,89%的受訪企業在IT架構上採用了多雲戰略。多雲策略的優勢在於它可以幫助企業保持議價能力,不受單一資源的限制,並避免技術架構與單一雲服務商深度綁定。
這就對國內的阿里系產品提出了挑戰。因為其大多使用的雲服務實際上是自家業務的一部分。未來他們需要考慮是否將一部分業務轉移至其他雲服務提供商,或是創建一個獨立的私有雲,以此來分散和降低風險。
滴滴App的事故也源自雲計算,外界普遍認為是與滴滴彈性雲基於K8S的升級有關。
官方的內部調查初步確定,事故起因是底層系統軟體發生故障,而非遭受攻擊;並承諾將深入進行技術風險隱患排查和升級工作,確保服務穩定,努力避免類似事故再次發生。

另外,密集的突發事件還被解讀為是各大互聯網公司「降本增效」的裁員行為,影響到了技術、運維團隊的正常運作,導致技術服務和系統穩定性受損。
儘管只是毫無根據地猜想,卻也映射出公眾對雲服務故障的深切關注。未來用戶對於雲服務故障事件的容忍度,可能會逐漸降低。
總之,雲服務的一個關鍵風險——可靠性問題,正在暴露出來,尤其是在缺乏充分備份和故障轉移計劃的情況下。
誰來拯救雲計算?
飛速發展的大趨勢下,問題往往被暫時隱藏在繁榮的表象之下。現在,探索雲計算如何能夠重拾增長的腳步,並進一步優化客戶體驗?這一切的關鍵,恰恰在於生成式人工智慧的廣泛應用。
目前,大模型正在改變雲計算的遊戲規則,並逐漸成為行業共識。
一方面,龐大的語言模型在訓練和推理階段需要巨大的計算力。這一需求促使雲服務商提供更加強大且高效的計算資源以支持模型訓練。
另一方面,大模型的流行也帶動了對雲計算資源的額外需求,推動雲計算的技術架構和產品布局發生變化。

IDC的研究主任Ewa Zborowska對此進行了深入闡述。具體來說,在生成式AI的快速發展和可擴展性方面,雲計算扮演了催化劑的角色。
當下,即便沒有巨額的前期投資,高性能的計算資源如GPU和TPU也變得觸手可及。這讓組織可以集中精力在最重要的事情上:開發創新的生成式AI解決方案,而不必擔心任何基礎設施問題。
此外,雲平台為生成式AI提供的一個主要優勢是管理對預訓練模型和API的訪問。預訓練模型集成了生成式AI專家的知識和技能,節約了大量的時間和計算資源。通過利用這些模型,開發者可以推進他們的項目,專註於微調和定製,而不是花費無數小時在模型訓練上。
企業當然也可以選擇自己構建和託管基礎模型,但這是一個非常昂貴、複雜且耗時的過程。而雲服務商提供的API簡化了模型架構的複雜性,使得將生成式AI能力整合到現有和新建應用程序中變得更加簡單。
可以說,生成式AI的興起,加固了雲計算不可或缺的基石地位。根據Gartner的預測,到2024年,主要需求將來自部署生成式AI能力的組織,他們的雲基礎設施消耗預計將比2023年增長近27%。
儘管形勢一片大好,雲服務商們也不能沉浸於現狀的自滿之中。在這條充滿不確定性的商業征途上,真正的驅動力是實際的經濟效益。供應商們必須認識到,唯有持續創新和適應市場的不斷變化,才能保持領先。
比如,雲服務商需要投資於硬體和晶元的研發,增強針對生成式AI任務的硬體和晶元能力,甚至開發新型晶元來加速生成式AI的計算。只有不斷站穩硬體層面的前沿,才可以提供更高的性能和成本效益。
另外,雲服務商還需要開發行業特定或用例特定的AI框架,通過針對不同領域的獨特需求,實現差異化。只有通過這些專門的AI框架,才能使企業有效利用生成式AI,並推動特定行業的創新。
以上早已是今年上半年北美和中國雲計算巨頭正在積極推進的策略。而眼下,雲計算行業才正式邁入了決定其命運的下半場征程。
參考資料:
北京商報-今年App崩潰至少已有14起
IDC-Why Generative AI and Cloud Platforms Are a PerfectMatch