算力即服務時代:推理芯片如何成為新的「數字石油」?

四月下旬,ai芯片領域掀起一陣波瀾。資金實力雄厚的初創公司sambanova systems做出了一個重大戰略調整,這一調整不僅改變了其自身的發展軌跡,也在整個ai芯片行業引發了廣泛關注與深度思考。

sambanova systems自創立之初,便懷揣着為ai訓練和推理提供統一架構的宏偉願景,與眾多同行一樣,試圖在這片充滿機遇與挑戰的藍海中開拓屬於自己的天地。但就在今年,這家公司毅然放棄了在訓練領域的雄心壯志,直接裁員15%,計劃將全部精力聚焦於ai推理。而且,在整個ai初創企業裏面,sambanova並非個例。

1.sambanova的訓練之路

回顧過往,2017年groq還在大肆宣揚其訓練性能,然而到了2022年,卻完全將重心轉向了推理基準。cerebras cs-1最初主要服務於訓練工作負載,但後續的cs-2及更新版本逐漸將重點轉移至推理。sambanova一度被視為第一代ai芯片初創公司中堅守訓練領域的最後堡壘,如今這一局面也被打破。那麼,究竟是什麼原因促使這些初創公司紛紛從訓練領域轉向推理呢?

sambanova systems在其發展歷程中,對訓練領域給予了高度重視。公司不僅積極發佈關於在其硬件上進行訓練的技術文章,大肆吹噓其訓練性能,還在官方文檔中深入探討訓練相關問題。這種對訓練的執着,使得包括作者zach(2019年至2021年期間在sambanova systems工作)在內的眾多分析師和外部觀察家普遍認為,sambanova憑藉單芯片同時滿足推理和訓練市場需求,相較於競爭對手擁有獨特優勢。而groq作為最早轉向推理領域的初創公司之一,與sambanova形成了鮮明對比。

為了實現高效的訓練,sambanova投入了大量的人力、物力和時間。以作者zach為例,在其任職期間,花費了大量精力為nadam優化器實現內核。nadam優化器作為一種基於動量的優化器,在訓練大型神經網絡方面發揮着關鍵作用。公司從硬件到軟件功能,都圍繞訓練進行了精心設計和優化。內部和外部信息均表明,對訓練的支持是sambanova價值主張的核心組成部分。

2.三大誘因促使戰略轉型

ai技術的實際應用涵蓋兩大核心環節——訓練(training)與推理(inference)。訓練環節聚焦於利用海量數據構建複雜神經網絡模型,以賦予其特定功能適配能力。這一過程對計算性能要求嚴苛,需具備處理大規模數據集的能力,併兼顧通用性,以確保模型能應對多樣化場景。而推理環節則側重於運用已訓練成熟的模型,針對新輸入數據展開快速運算,直接輸出精準結果。

近年來,雲端推理在算力分配中的佔比持續攀升,成為ai技術落地應用規模擴張的重要標誌。據idc數據顯示,2022年雲端算力資源中,推理佔比達58.5%,訓練佔比為41.5%。至2026年,推理算力佔比預計將進一步升至62.2%,訓練佔比則降至37.8%。這一趨勢充分印證,隨着ai技術進入大規模落地應用的關鍵階段,ai應用場景正加速拓展,人工智能模型逐步邁入全面投產新周期。

所以,推理市場的巨大潛力是促使其戰略轉型的重要誘因之一。

推理算力作為ai技術實際應用的關鍵支撐,承擔著利用訓練模型對新數據進行實時處理與快速響應的重任。其算力需求與具體應用場景、用戶規模及使用頻次緊密相關,採用"雲端訓練,端側推理"的協同模式——雲端完成模型訓練後,將模型部署至端側設備(如智能手機、服務器等),由端側設備依託模型實現實時推理運算。這種模式既充分發揮雲端算力優勢,又有效降低端側設備響應延遲,提升用戶體驗。

2024年,推理算力需求呈現爆髮式增長態勢,尤其在生成式ai領域,其需求規模已遠超訓練算力。idc預測,至2026年,中國智能算力規模將突破每秒十萬億億次浮點運算(zflops),年複合增長率高達52.3%,這一增長主要由推理端需求釋放驅動。在大模型應用場景中,推理算力需求已逐步超越訓練算力,成為智能算力增長的核心引擎。

2025年更被業界視為推理算力需求井噴的元年。以位元組跳動豆包模型為例,截至2024年12月中旬,其日均token使用量已突破4萬億,較七個月前增長33倍。這一現象折射出ai技術在各行業滲透率的快速提升,以及由此引發的算力需求指數級增長。展望未來,隨着openai o1-preview等新一代模型的商業化落地,推理算力需求將進一步擴張,推動ai技術從垂直場景向全域應用深化發展。

從市場規模角度來看,人工智能推理市場被眾多分析師視為具有十倍於訓練市場的潛力。這一觀點有着直觀的邏輯支撐。通常情況下,模型只需訓練一次,之後便可進行無數次的推理操作。儘管每次推理的成本遠低於整個訓練過程,但當對同一模型進行足夠多次的推理時,推理成本將成為服務該模型的主要支出。

在未來的發展預期中,如果人工智能領域最終形成少數幾個大型模型主導的局面,且每個模型都具備巨大的推理量,那麼推理市場將遠遠超越訓練市場。當然,也存在另一種可能性,即許多組織最終選擇訓練自己的定製模型,那麼推理市場或許不會如預期般龐大。但即便如此,從技術層面分析,推理對於ai芯片初創公司而言,仍是一個相對更容易應對的市場。

第二個誘因是推理的技術優勢。

在訓練模型的過程中,需要運行大量的訓練數據,在模型運行期間收集梯度信息,並利用這些梯度更新模型的權重,以實現模型的學習功能。然而,這一過程對內存的需求極高,因為需要緩存梯度以及其他值,如模型的激活值。為了高效進行訓練,必須構建一個複雜的內存層次結構,涵蓋片上sram、封裝內hbm和片外ddr。

但ai初創公司在獲取hbm以及將其集成到高性能系統方面面臨諸多困難。許多ai芯片,如groq和d-matrix,由於缺乏高效訓練大型模型所需的hbm或ddr容量及帶寬,難以在訓練領域取得突破。相比之下,推理過程則不存在這些問題。在推理過程中,無需存儲梯度,激活函數使用後即可丟棄,這大大降低了推理工作負載的內存佔用,也簡化了僅用於推理的芯片所需的內存層次結構。

此外,芯片間聯網也是訓練過程中的一大挑戰。訓練過程中生成的梯度需要在所有參與訓練的芯片上同步,這就要求構建一個龐大、複雜且全對全的網絡。而推理屬於前饋操作,每個芯片僅需與推理流水線中的下一個芯片通信。許多初創公司的ai芯片網絡功能有限,難以滿足訓練所需的全連接性,但足以應對推理工作負載。

第三個誘因是英偉達在訓練領域的霸主地位。

自2012年alexnet發佈以來,英偉達憑藉cuda賦予gpu的多功能性,使其成為推理和訓練領域的首選硬件。過去十年間,英偉達不僅專註於打造針對機器學習工作負載高度優化的芯片,還在內存和網絡堆棧方面進行了持續優化,以支持大規模訓練和推理。

英偉達硬件在每個芯片上配備了大量的hbm,能夠輕鬆高效地緩存每個訓練步驟生成的梯度更新。藉助nvlink等縱向擴展技術和infiniband等橫向擴展技術,英偉達硬件可以處理在每個訓練步驟完成後更新大型神經網絡所有權重所需的全對全網絡連接。而groq和d-matrix等專註於推理的競爭對手,由於缺乏與英偉達在訓練領域競爭所需的內存和網絡能力,難以對其構成實質性威脅。

儘管sambanova芯片配備了hbm,並且在服務器級和機架級都擁有點對點網絡,但在訓練領域仍難以與英偉達抗衡。英偉達在低精度訓練方面投入了大量精力,頂級人工智能實驗室也針對英偉達低精度訓練硬件的特定複雜性,對算法超參數進行了大量調整。從英偉達芯片轉向sambanova芯片進行訓練,需要修改極其敏感的訓練代碼,以適應全新的硬件環境,這對於大型gpt - 4規模的模型而言,成本和風險都是巨大的。

3.競爭格局的變化

伴隨生成式ai技術商業化浪潮席捲全球,中國推理算力市場正迎來爆髮式增長。據idc數據預測,2026年中國智能算力規模將突破每秒十萬億億次浮點運算(zflops),年複合增長率達52.3%,其中推理算力需求佔比預計超六成,成為驅動行業增長的核心引擎。

寒武紀作為國產智算芯片龍頭,憑藉「雲邊端一體」戰略持續突破算力瓶頸。其最新發佈的思元590芯片單卡算力已超越英偉達a100,集群性能達其80%,在位元組跳動、阿里、騰訊等互聯網大廠的測試中表現亮眼。公司董事長陳天石透露,下一代產品將採用雙芯結構對標英偉達h100,性能有望實現翻倍提升。背靠中科院計算所的技術積澱,寒武紀通過三年超37億元研發投入,構建起覆蓋雲端訓練整機、邊緣加速卡及終端ip的完整產品矩陣,2024年高算力產品已批量進入頭部互聯網廠商供應鏈。

華為昇騰則依託全棧ai計算基礎設施,打造「端邊雲」協同的場景化解決方案。其atlas系列涵蓋模塊、板卡、服務器到集群的全形態產品,針對國家區域ai計算中心、城市智能中樞、視頻分析等場景推出定製化方案。在深圳、武漢等地的國家ai計算中心項目中,昇騰集群以高能效比賦能產業集群智能化升級;而在金融、運營商領域,atlas800訓練服務器憑藉cann異構計算架構,實現千億參數大模型在通用處理器上的穩定運行,打破海外技術壟斷。

中科曙光依託中科院技術基因,構建起覆蓋芯片、服務器、雲計算的全產業鏈生態。子公司海光信息研發的dcu深算二號芯片,性能較首代產品提升超100%,在大數據、ai訓練等場景實現商業化部署。其機架式、高密度及核心應用三類服務器,通過與intel、amd、龍芯等cpu的深度適配,在政府、金融、能源等領域形成差異化競爭力。2024年,曙光參股公司推出基於液冷技術的智算中心解決方案,pue值低至1.1,為大規模推理集群提供綠色算力支撐。

市場格局的深刻變革亦催生新玩家入局。首都在線通過「全球雲網融合+異構算力平台」戰略,為元宇宙、車聯網等行業提供存算網一體化渲染方案,其gpu雲主機產品已服務數百家ai企業;浪潮信息則以「源2.0-m32」大模型為支點,推出兼容多元算力的開放加速服務器及超級ai交換機,實現推理網絡性能1.6倍提升。

行業分析人士指出,隨着美國高端芯片出口限制升級,國產推理芯片正迎來歷史性機遇。預計未來3-5年,高性價比的國產ai芯片將在推理端佔據主導地位,2025年全球推理芯片市場規模有望突破600億美元。在這場算力軍備賽中,技術創新與生態協同能力將成為企業突圍的關鍵。

從這個角度上看,我們再去看sambanova systems的戰略轉向,無疑是為整個ai芯片行業敲響了警鐘。這一事件表明,即便一家ai芯片初創公司能夠在內存和網絡能力方面與英偉達展開競爭,也未必能在訓練市場取得成功。若想在訓練領域挑戰英偉達的霸主地位,初創公司必須提供令人矚目的訓練性能,以克服市場對英偉達的依賴慣性。

然而,截至目前,尚未有任何一家公司能夠實現這一目標。

從行業發展趨勢來看,這一轉變可能會導致更多的ai芯片初創公司將重心從訓練轉向推理。推理市場相對較低的技術門檻和巨大的市場潛力,對初創公司具有極大的吸引力。然而,這也可能引發推理市場的激烈競爭,導致產品同質化嚴重,利潤空間受到擠壓。

對於英偉達而言,其在訓練領域的絕對主導地位短期內難以撼動。但這也並不意味着英偉達可以高枕無憂。隨着技術的不斷發展和市場需求的變化,推理市場的重要性日益凸顯。英偉達若想在未來的ai芯片市場中保持領先地位,需要在推理領域加大投入,優化產品性能,以應對來自競爭對手的挑戰。

sambanova systems的戰略調整是ai芯片行業發展過程中的一個重要里程碑。它不僅反映了當前市場的競爭態勢和技術發展趨勢,也為行業內的其他公司提供了寶貴的經驗和教訓。在未來的發展中,ai芯片行業將面臨更多的機遇和挑戰,各公司需要不斷調整戰略,以適應市場的變化,實現可持續發展。

審校 | 童任

配圖/封面來源 | 騰訊新聞庫

編輯/出品 | 東針-知識頻道(未經允許,禁止轉載)