硅基昇騰,中國突圍 分類:國際 瀏覽數:3667 2025-05-16 用空間換算力;用帶寬換算力;用能源換算力……用一切換算力。作 者丨熊劍輝華商韜略出品丨id:hstl8888 2025年1月15日,中國ai大模型deepseek r1剛一問世,便震動全球。針對deepseek,全世界展開了一場龍爭虎鬥。 可僅僅2周之後,2月1日(大年初四),華為雲就聯合硅基流動基於昇騰雲推出deepseek r1/v3,引爆全網。從模型到算力,從引擎到框架,全面實現國產化。這其中,deepseek和華為自不用說。硅基流動作為一家ai infra(ai基礎設施)企業,則是清華博士袁進輝2023年剛創立的創業公司。創業公司往往嗅覺極度靈敏。其實,早在deepseek v3發佈前一個月,deepseek創始人梁文鋒就找到袁進輝,問他要不要部署?袁進輝算了一筆賬:動用80台英偉達h800服務器,單月花費五六百萬,風險很大。但眼見着deepseek越來越火爆,全世界的ai團隊都爭分奪秒,連英偉達也親自下場。時間不等人,硅基流動火速找到華為雲。雙方一拍即合,決心大幹一場,希望能用國產算力率先搞定部署難題。華為雲的方案,正是昇騰雲。 於是,雙方經過徹夜不息的努力,終於在2月推出基於昇騰雲與硅基流動推理加速引擎的deepseek,成為國內第一個成功部署deepseek服務的企業。僅2月,硅基流動網站訪問量暴增40倍,衝上中國ai網站排行榜第6、全球ai網站增長榜第2。狂暴的流量,讓人又驚又喜。據華為雲技術負責人王磊回憶,硅基流動deepseek剛上線,第一波流量超乎想像。他不得不四處騰挪,緊急調撥2000多張昇騰910b卡馳援,才勉強扛住。但第一波「洪峰」之後,更大的流量爆發了。這一次,不得不每次1000卡地往上加,不計上限地調配算力,才勉強扛住。但這一波之後呢?未來的流量,還會爆發到怎樣的程度?沒有人知道。於是,華為雲找到袁進輝,亮出當時還秘不示人的「大殺器」——cloudmatrix 384超節點。對於超節點,袁進輝早有耳聞。2024年3月,英偉達首發nvl72超節點,一度震驚世界。傳統ai服務器里,一張計算卡僅能容納8塊gpu;但nvl72超節點,能將72塊gpu組成一台超級ai服務器,令ai算力和通訊速度實現飆升。所以,超節點是一種將gpu高度集成的ai服務器「黑科技」。誰也沒想到,華為雲這麼快就搞出了cloudmatrix 384超節點。而且,華為雲超節點的昇騰卡互聯數量飆升到384張,遠超英偉達nvl72的72卡。這是中國ai的算力之巔,更是前所未有的應用挑戰。當時,袁進輝坦承對cloudmatrix 384懷有疑慮:第一,deepseek所需的大規模專家並行,要求多卡之間實現低延遲、高協同,並使用all-to-all通信。但即便是英偉達,對all-to-all的支持也相當乏力。cloudmatrix 384行不行?沒有人知道。第二,英偉達nvl72超節點,採用銅連接;cloudmatrix 384卻採用光模塊。區別在哪呢?光模塊通信具備更高帶寬和更低時延,適合大容量、長距離傳輸;此外光網絡架構簡化,空間和功耗節省顯著,且擴展性更強。但光模塊最大的問題就在於故障率高。 這個超高難度的連接方式,到底行不行?沒有人知道。儘管充滿疑慮,但袁進輝選擇「信華為」:「華為不僅是打過硬仗的團隊,更創造了很多很多的奇蹟。」實際上,袁進輝的疑慮,也正是騰建軍所擔心的。 2023年2月,一場驟然爆發的電源浪涌,席捲新加坡數據中心,多家雲廠商和數據中心客戶受影響。騰建軍,正是這場危機的親歷者。當時,新加坡華為雲和微軟雲恰好在同一數據中心。唯一不同的是,電源浪涌爆發後,華為雲的ai for dc(data center),迅速「感知」到電源浪涌引發的高溫,自動觸發應急預警。作為資深專家,騰建軍和團隊迅速判斷出,這將是一場全局危機。這也是一場爭分奪秒的戰鬥。1分鐘發現故障,3分鐘建立作戰室進行統一指揮,1小時內啟動乾冰應急計劃……騰建軍率領團隊頭戴防毒面罩、手挑乾冰,衝進現場給服務器物理降溫,生生扛住這波突襲,確保了華為雲穩定運行。江湖傳言,這一天,新加坡的乾冰被華為雲直接搬空。微軟雲在內部溫度驟升、短暫抵抗之後,關閉了服務器,中斷了雲服務。微軟雲客戶甚至是在twitter上,才得知自家業務猛然宕機,被打了個措手不及。一邊迅速趴窩,一邊穩如泰山。僅此一招,足見華為雲的功力。但智算超節點時代,對數據中心的要求更加苛刻。在騰建軍眼中,cloudmatrix 384超節點要在物理上真正落地,數據中心要解決的是一連串實打實的難題。因為數據中心,是「智算超節點產品」不可分割的一部分。比如供電。傳統數據中心,供電只做到8-10千瓦/機櫃;但為了驅動cloudmatrix 384,僅供電就要飆升到50千瓦甚至更高,怎麼辦?那就突破標準,超前技術準備、超前建設。散熱上,一套cloudmatrix 384橫跨16個機櫃,熱量密度飆升,必須構建一套精密的液冷散熱系統。這其中,僅鏟齒散熱器的縫隙,就堪比髮絲般精細。一旦散熱液潔凈度出現些許問題,或是不可避免滋生細菌微生物,就很可能將鏟齒散熱器堵死,不可避免導致大規模宕機。這時候,又怎麼辦?一方面,用ai for dc提前預警;另一方面,通過物理+化學的新方法長效殺菌,實現數學、物理到生物、化學的跨界研究,引領一場液冷革命。而這些技術,早在幾年前就在華為雲得到規模應用,展現出技術超前投入的前瞻價值。但光模塊,差點成了騰建軍「過不去的坎」。實際上,華為在光通信領域早已世界領先。2020年,華為全球首發800g超高速光模塊,獨步全球;2025年,華為再發1.6t硅光模塊,在800g基礎上再翻一倍。至此,業界已無人得見華為光通信的「車尾燈」。強大的技術積澱,讓華為雲用光模塊構建超節點,而非採用銅連接,成為一種必然。可真槍實彈幹起來才發現,困難比預想的大得多。實測中,騰建軍發現:光鏈路的閃斷太頻繁了,結果就是——完全不能用!「咯噔」一下子。問題嚴重了!當時,cloudmatrix 384赫然被列入華為重點密級項目,是必須強渡的「大渡河」。加上單卡性能不如人,被逼得只能闖光模塊這「華山一條路」。真被卡死,滿盤皆輸。但那段時間,騰建軍對團隊說的最多的話卻是:不要談困難,想盡辦法去突破。於是,一邊內部想辦法,一邊外界請高人,同時,只能用最笨的辦法把難題列出來,一條條去攻克。終於,騰建軍團隊發現:八成以上問題,出在光模塊幾乎肉眼不可見的臟污上,嚴重影響了通訊質量;而臟污的產生,就在數據中心現場超節點內網互連的安裝環節。找准了關鍵就好辦。於是,團隊打造出針對光模塊故障的定位和修復系統,通過數字化平台上的專家經驗庫和現場光模塊的故障現象進行對接,實現了問題快速定位、故障迅速處置。這一次,cloudmatrix 384再上線,速率、穩定性大幅提高。作為全球首次大規模動用光模塊部署超節點的探索,華為雲創造了「奇蹟」。這一切,都成為硅基流動基於cloudmatrix 384再次爆發的堅實根基。 2月底,當強大的cloudmatrix 384呈現在硅基流動團隊面前時,所有人面對的,卻是一場新的長征。王磊清楚記得:3月初,硅基流動deepseek服務在超節點上剛跑通,吞吐量只有320 tokens/秒,低到令人難以置信。一台算力怪獸,表現如此拉胯,問題出在哪?沒有人知道。實際上,普通人很難想像,大模型內星辰般的宏大:它的參數,高達數千億級;它的神經網絡層級,成百上千;每個算子(神經網絡中具備特定功能的算法節點)背後,連接着不計其數的分佈式系統;它的結果,則由成百上千張gpu協同計算輸出,充滿概率偶然。要在這其中找出問題,彷彿是在一座亞馬遜雨林中通緝一隻細菌。這幾乎是一個不可能完成的任務。但華為雲,必須上。很快,王磊發動「超能力」,開始全公司「搖人」。從底層做芯片的、做存儲的、做計算的,到上層做算子的、做推理的、做平台的……王磊竭盡所能,幾乎把技術棧上的所有團隊拉到現場,跟硅基流動團隊協同辦公、攻堅克難。協議有問題,馬上改協議;算子有問題,馬上改算子……圍繞硅基流動deepseek服務上的超節點大計,華為上百人的團隊,晝夜攻關不息。而對華為雲團隊來說,冗長的測試,更是一個永不停歇的「西西弗神話」。通信有瓶頸,優化通信;但接着,計算問題又冒出來了;於是,優化計算後,gpu、npu太快,cpu不匹配……當整個技術棧全部優化一遍後,王磊猛然發現,問題又從最初的源頭,再次冒了出來。總之,按下葫蘆浮起瓢。但就是在這種重複、重複、再重複的優化過程中,cloudmatrix 384,終於被托舉到一個不可思議的新高度。4月10日,華為雲生態大會,硅基流動創始人袁進輝鄭重宣布:基於cloudmatrix 384的deepseek-r1在保證單用戶 20 tps 水平前提下,單卡 decode 吞吐量突破 1920 tokens/秒。 這什麼概念?相較英偉達h100,性能追平;相較3月初的cloudmatrix 384,性能提升6倍;相較昇騰910b單卡,性能飆升10倍。這背後,cloudmatrix 384還實現了性能倍增(訓推提升20%)、以存強算(吞吐量提升100%)、moe親和(千億moe提升3x)、長穩可靠(長穩運行40天不中斷)、朝推夜訓(算力利用率提升30%)、即開即用六大特性。以moe親和為例。 所謂moe,即deepseek中的「混合專家模型」。deepseek之所以功能超強,在於其會內置多個「專家」處理問題。而在硬件層面,通常1枚芯片對應1個「專家」,於是芯片越多,效率越高、性能越強。而超節點集成了384張昇騰卡,極大優化了moe能力。這不僅令deepseek性能大爆發,更展現出華為雲在ai技術上的前瞻布局。今天,在華為雲三大雲核心樞紐(貴州貴安、內蒙古烏蘭察布、安徽蕪湖),cloudmatrix 384實現全面布局,成為國內唯一正式商用的大規模超節點。強大的算力網,令萬卡級服務,分分鐘即可開啟。這不僅是華為雲的自我超越,也不僅是部分指標上對英偉達的超越,更大的意義,在於中國ai正呈現出體系化的突破式創新。用袁進輝的話說:美國試圖像「三體人」一樣,用芯片鎖死中國科技。但6年抗爭過去,向死而生的華為,卻越挫越勇。當歷經了鴻蒙蟄伏、海思攻堅、昇騰崛起……憑藉華為雲cloudmatrix 384超節點,一道堅不可摧的國產算力防線正在構建。ai長跑沒有終點,突破,也不會有終點。但中國ai,一定會迎來自己的「奇點」時刻。(應受訪者要求,文中王磊、騰建軍為化名) the end尊敬的讀者朋友們,衷心感謝您訂閱《華商韜略》,為了便於您及時收到我們的最新推送,敬請星標華商韜略公眾號,感謝支持,期待長久伴您同行。華商韜略出品主編:畢亞軍 責編:周怡美編:殷姍姍 國際分類資訊推薦 聯合國呼籲以色列與胡塞武裝立即停火 避免人道危機惡化 - 天天要聞 早有預料,俄烏兩個小時的談判沒談攏,俄羅斯的態度很有意思 - 天天要聞 脫北者回憶錄:母女從朝鮮逃到韓國 卻在韓國靠撿垃圾過活 - 天天要聞 特朗普想打新一輪關稅戰?叫囂中方:美國將奪回中國在中東的貿易 - 天天要聞 俄烏10分鐘不到就談崩,俄方代表「拍案而起」,普京政府胃口不小 - 天天要聞 AI預測出大糗: 新教皇根本不在候選名單上; 為什麼會出現「受害者有罪論」? | 科技趣評 - 天天要聞 農村希望與城市夢的掙扎:唐尚珺的艱難選擇 - 天天要聞 出席戰略學派年會有政治意圖?盧秀燕親曝答案:大家放輕鬆 - 天天要聞 特朗普去中東,「談生意」還是「拉關係」? 張學峰 :為尋求以色列與阿拉伯國家的戰略平衡 - 天天要聞 1ms城市算網專題研討會暨1ms城市算網中國行啟動會順利召開 - 天天要聞 國際分類視頻推薦 2024年烈士紀念日向人民英雄敬獻花籃儀式... 24:51 慶祝中華人民共和國成立75周年 香港各界祝福祖國繁榮昌盛 再創輝煌... 1:56 中國國慶節祝福:福智霖FOZL祝福中國國慶節快樂,越來越好❤️🌈🎉... 0:35 國慶節祝福語... 0:41 國慶節到了、感恩我們偉大的祖國... 0:24 瘦西湖裡的中國紅!就連天空都染紅了!祝祖國永遠如此刻般絢爛!中國紅喜迎國慶山河之中的中國紅祖國生日快... 0:12