「伺服器繁忙,請稍後再試。」這是近期deepseek用戶經歷的日常,需求井噴讓deepseek始終處於滿負荷算力運行狀態。然而,「算力不足」的另一面卻是「算力過剩」——市場上大量異構晶元因彼此之間「語言不通」存在「生態隔離」,難以被有效整合和利用。
入駐上海模速空間的國內ai基礎設施頭部公司無問芯穹捕捉到了deepseek爆火引發的算力瓶頸,今天推出首個支持deepseek多晶元適配和推理的ai異構雲大模型服務平台。開發者不僅能一鍵獲取r1、v3模型,還將能選用來自壁仞科技、海光信息、華為昇騰、摩爾線程、沐曦、燧原科技、天數智芯等7家國產ai晶元品牌的算力。這意味著國產晶元上也能跑「滿血版」deepseek了。
對國內智算產業來說,deepseek是激勵,更是絕佳的商業化試煉場。如何利用好deepseek模型帶來的算力優化啟示,高效盤活國產算力資源,成為值得行業思考和探索的話題。
全網「服務繁忙」,完善算力基建迫在眉睫
儘管deepseek本身降低了對模型預訓練的算力需求,但卻激發了大量推理算力需求,引爆了整個ai生態鏈更大的應用需求。目前,主流雲廠商幾乎均已宣布提供r1模型服務,但全網依然「服務繁忙」。在此背景下,國產算力實際上還有很大的挖潛空間,完善算⼒基建迫在眉睫。
如何將大量不同架構的國產晶元變得能用、好用,並在使用過程中形成硬體與演算法之間的正向循環?無問芯穹的策略是做「異構雲」, 即統籌模型和算力需求,把分散在不同地方的異構算力整合起來。
無問芯穹聯合創始人、首席執行官夏立雪解釋說,和人類社會一樣,晶元之間的通信也需要「語言」,不同構架的晶元「語種」各不相同。無問芯穹基於團隊成員此前在清華大學電子工程系的技術積累,實現了不同晶元間的高效通信,相當於發明了一種能讓異構晶元順暢交流的「世界語」。
與此同時,不同晶元擅長的「工種」各不相同,如果平均分配任務,就會出現「尖子生」空閑而「普通人」忙不過來的現象,造成算力浪費。要解決這一問題,需要對每種晶元在實際執行中的速度和效果了如指掌,從而在分配任務時「因片制宜」。此外,不同晶元還有不同優化空間,可深度挖掘軟硬體的適配度,進一步提升「單兵作戰」能力。
憑藉著對演算法、硬體、場景的深度理解,無問芯穹將「百花齊放」的國產異構晶元匯聚起來,將非標準化算力變成標準化算力賦能千行百業。2024年,公司推出業內首個千卡規模異構晶元混訓平台,將來自不同廠商的異構晶元拉入大模型「聊天群」。這一創新「異構計算集群」執行ai訓練任務的算力利用率最高可達97.6%。目前,無問芯穹異構雲平台已接入13座城市的算力中心。
加速「國產模型-國產晶元-國產系統」產業閉環
深度解讀deepseek的系統架構設計不難發現,其核心就是軟硬體協同優化理念,這在國內算力受限場景下實現模型能力的突破具有重要意義。
無問芯穹聯合創始人、首席執行官夏立雪。受訪者供圖
業內專家指出,在美國,模型、系統、晶元三大ai發展關鍵要素已形成閉環生態。而大部分國產模型是通過國際主流晶元(如英偉達)訓練得到,尚未與國內的ai系統、晶元形成閉環生態。deepseek的異軍突起激發了越來越多的下游應用創造力,未來行業日均tokens消耗量將達百萬億級別。這不僅將激發國產晶元的市場需求,也為打造全國產ai產業閉環,實現更可控的自主算力支撐創造有利條件。
據國際數據公司(idc)預測,2027年中國智能算力規模將是2023年的3倍,達1117.4eflops(每秒百億億次浮點運算)。新增算力從哪裡來?在夏立雪看來,一方面是將數量佔據半壁江山的國產異構晶元納入標準化算力體系,另一方面則需通過演算法提升算力使用效率,從而降低大模型的落地成本,由此打造「國產模型-國產晶元-國產系統」的全國產ai產業閉環。這種軟硬體協同優化的技術路徑與deepseek的模型構架創新在理念上異曲同工。
事實上,deepseek的成功也將更多優秀中國ai企業推向世界舞台。近日,知名科技商業智庫《麻省理工科技評論》點評了4家中國ai新銳。報道指出,除deepseek之外,階躍星辰、面壁智能、智譜ai、無問芯穹4家企業同樣展現出不俗的技術實力與全球競爭力。目前,4家ai新銳已有3家入駐上海模速空間,某種程度上體現了上海在ai領域戰略布局的前瞻性與精準性。
從國產模型到國產算力、國產應用,deepsseek讓國內ai產業鏈上下游意識到,在堆疊算力儲備、比拼模型精度的巨頭競賽之外,找到未被業界主流關注到的「創新盲點」,跨越軟硬體,攢動上下游,有可能走出出奇制勝的技術路徑。