芯片管制升級,國產AI還得靠國產雲

2025年05月16日20:30:23 科技 4136

芯片管制升級,國產AI還得靠國產雲 - 天天要聞


文|白    鴿

編|王一粟

一則新聞又開炸ai圈。

最新消息顯示,美國bis執法部門宣布加強對海外ai芯片的出口管制措施,其中有對中國國產算力芯片不利的條款。

關稅剛剛達成初步協議,轉頭就加強科技管控。根據路透社報道,美國參議員上周五提出一項新法案,要求對出口受限的人工智能芯片實施位置驗證機制,旨在阻止中國獲得先進半導體技術。

這項名為《芯片安全法案》的提案將給與美國商務部授權,要求出口受控的ai芯片及其集成產品配備位置追蹤系統,以監測這些產品是否被轉移、走私或用於未經授權的用途。

不過,後續bis又更改了口徑,對中國ai芯片的限制又從某一款單獨的ai芯片擴大到其他所有先進計算芯片。

至此,幻想需要被徹底放棄了:在ai這個未來科技的勝負手上,將會是一場沒有終點的長跑比賽。

而想坐在談判桌上,必須擁有籌碼:自主創新的科技實力。

大模型推理,超節點需要解決「三高一低」

超節點是ai浪潮中,算力架構的一次重大創新。這個概念雖然源自英偉達,但中國廠商卻做了更多顛覆式的創新。

創新源於改變。

邁入2025年,ai大模型推理的需求更加旺盛,對算力提出了更多要求。如果僅僅是通過算力的堆疊,並不能夠滿足推理需求。

當前行業面臨著「三高一低」挑戰——即如何實現更高的算力利用率、更高的算力可用度、更高的吞吐率以及更低的處理時延。

事實上,deepseek低價質優的背後,就是通過使用moe架構,保證模型容量的前提下降低計算成本。

moe架構是一種通過動態組合多個子模型(專家)來提升模型性能的大規模機器學習框架,其核心特點是稀疏激活機制,即在用戶輸入問題時,僅激活與輸入數據最相關的專家進行思考回答,生成最終結果。

如deepseek-r1的參數量是671b,但因為採用稀疏架構,實際上每次只激活其中32b的參數,加上deepseek的思維鏈優化等技術,就可以實現近似於chatgpt-4o和o1的推理能力。

而傳統的dense架構則是全科天才需要處理所有問題,雖然能力強大,但是當問題變多時就會顯得效率十分低下,而且其消耗的資源也遠超「普通專家」。

但是,moe模型通過門控網絡動態選擇激活的專家,這就導致不同gpu節點間需要頻繁交換數據(如專家參數、中間計算結果),而傳統的點對點通信模式(如單機8卡互聯)在moe訓練中容易因通信帶寬不足或延遲過高導致gpu資源閑置。

而想要解決這一問題,超節點技術似乎成為了當前的最優解。

一般來說,構建一個超大規模的gpu集群,往往有兩種方式,一種是通過增加單節點的資源數量,向上擴展,即scale up,在每台服務器中多塞幾塊gpu,一個服務器成為一個節點;另一種scale out是通過網絡將多台服務器(節點)連接起來。

芯片管制升級,國產AI還得靠國產雲 - 天天要聞

而當這些設備處於同一個hbd(high bandwidth domain,超帶寬域)的時候,英偉達對這種以超大帶寬互聯16卡以上gpu-gpu的scale up系統,稱為超節點。

那為什麼說,超節點是解決moe架構通信問題的最優解?

背後原因在於,超節點作為scale up的當前最優解,通過內部高速總線互連,能夠有效支撐並行計算任務,加速gpu之間的參數交換和數據同步,縮短大模型的訓練周期。

近期,華為雲正式發佈了cloudmatrix 384超節點,其在性能倍增的同時,也進行了技術創新,包括對moe親和、以網強算、以存強算、長穩可靠、朝推夜訓、即開即用等6大方面。

芯片管制升級,國產AI還得靠國產雲 - 天天要聞

其中,華為雲cloudmatrix 384超節點通過超高帶寬scale-up網絡實現從「傳統以太網」向「共享總線網絡」演進,用對等架構替代傳統以cpu為中心的主從架構,將資源互聯帶寬提升了10倍以上,實現cpu、npu、內存等多樣資源全對等連接。

這背後核心技術就是華為雲創新的以網強算matrixlink服務,其是將單層網絡升級為兩層高速網絡:一層是超節點內部的scaleup總線網絡,確保超節點內384卡全對等高速無阻塞互聯,卡間超大帶寬2.8tb,納秒級時延,另一層則是跨超節點間的scaleout網絡,可支持微秒級時延,資源彈性擴展,最大支持128k組網規模。

「基於全局拓撲感知的智能調度算法,對於流量衝突,可規劃最佳流量路徑,確保無阻塞交換。同時,可支持光模塊故障的快速識別、隔離與流量快速調度,保障客戶任務長穩運行。」華為雲副總裁黃瑾說道。

具體來說,傳統單機最多帶8個專家,類似一個小辦公室只能坐8人,而moe需要成百上千專家,超節點則可以把多個機櫃計算卡連成「超級辦公室」,專家數量隨需求擴展,可支持千億參數大模型。

而針對moe模型里專家可能「冷熱不均」:有的專家被頻繁調用,有的閑置情況。華為昇騰ai雲服務利用超節點和動態資源分配機制相結合,使算力利用率平均提高了50%,能夠充分滿足ai業務的高並發與彈性需求特性。

事實上,除底層硬件層面網絡帶寬的創新外,華為昇騰ai雲服務此次升級的分佈式推理平台,也能夠基於對moe架構天然的親和推理能力,提高集群的吞吐性能。

經過實測,硅基流動在基於華為昇騰ai雲服務打造的超節點算力服務集群上,其計算吞吐量已經超越業界最好gpu的集群吞吐性能,單卡可以達到1920token/秒。

芯片管制升級,國產AI還得靠國產雲 - 天天要聞

另外,在deepseek推理模型裏面,由於其對專家模型的動態選擇能力,也需要進行prefill(大模型推理的首個階段)和decode(大模型推理輸入-輸出結果的過程)負載配比,通過動態的均衡和自動負載均衡,來實現整個系統最佳推理的吞吐。

通過超節點,華為昇騰ai雲服務不僅優化了訓練與推理效率,還降低了硬件成本,也成為支撐moe模型從實驗室走向工業落地的關鍵。

大模型落地,算力調度既要靈活、又要高效

相比於大模型預訓練的集中式調度,「大量的ai推理應用,往往是短時間、短期間的潮汐式應用。」中國電信大模型首席專家、大模型團隊負責人劉敬謙此前曾說道。

如某電商平台在大促期間,大模型客服推理算力需求瞬時可提升500%,這就需要在分鐘級內完成跨集群資源調度。

因此,推理的算力部署要靠近用戶,保證算力延時要在5-10毫秒範圍內的同時,還要能夠支持算力資源的高效靈活調度,才能夠滿足潮汐式應用需求。

這裡有兩個關鍵詞,一個是算力充足,一個是靈活高效。

要想算力充足,不光是砸錢買英偉達的卡這麼簡單,就算openai這樣的新貴也不能放肆揮霍。這就需要從幾個維度去想辦法:

  • 提升單體架構的算力

  • 把多元化的算力都用起來,cpu、npu、gpu、內存一起上

超節點就完美地同時解決了這倆問題。

就像上面提到,超節點是從架構上的設計,提升了單體架構的算力。比如,華為雲的cloudmatrix 384超節點基於高帶寬互聯技術,在一台服務器中集成了384張算力卡。同時,通過分佈式擎天架構實現cpu、npu、gpu、內存等多樣資源統一抽象、池化,突破單體算力瓶頸,使算力規模提升50倍,達300pflops。

事實上,在傳統的方案中,因為顯存和算力綁定,往往客戶為了獲取更多的內存,就必須大規模購買npu,造成npu算力資源的極大浪費。

基於此,華為雲推出了業界首創的ems彈性內存存儲,通過內存池化技術,一方面可以支持以存強算,即用ems替代npu中的顯存,緩存並復用歷史kv計算結果,可以使首token時延降低,有場景可降低到80%。

另一方面,當npu的顯存不足時,往往企業會通過購買更多npu的方式進行擴容,但通過ems的分佈式內存存儲,基於將內存虛擬化的技術,就可以補充顯存空間,減少企業購買npu的數量。

此外,「ems還支持算力卸載,即將原來需要在npu中進行的kv計算卸載到cpu和ems中,從而使得系統吞吐量提升100%。」黃瑾如此說道。

當前,做超節點方案的廠商並不少,但華為雲cloudmatrix 384超節點有一些自有的特點,比如在節點間重要的通信上,華為就用了光通信,而非業界主流的銅纜電互聯。

通信起家的華為,比英偉達在通信上更有話語權。它能做到更高的卡間互聯帶寬、更高的擴展性、更低的延遲和功耗,為大模型訓練、科學計算等高性能計算場景提供了強大支撐。

經實測,華為雲數據顯示,基於華為雲的cloudmatrix 384超節點的軟硬件協調,在一個超節點上通過高效網絡互聯技術,mfu(model flops utilization,模型浮點運算利用率)可實現高達55%的利用率,同時還能夠保證超節點萬卡集群上,萬億模型訓練超40天不中斷。

底層的算力資源池已經有了,而想要高效靈活地調度這些資源池,則離不開雲服務體系。

一方面,華為昇騰ai雲服務通過瑤光智慧雲腦,可提供npu、gpu、cpu、內存等資源按需組合,通過匹配最優算力組合,實現百億到萬億級模型訓練所需的資源。此外,還可實現多個大模型在一個超節點資源池內調度,讓超節點整體資源利用率更高。

值得一提的是,此次昇騰ai雲服務在資源調度上,還實現了容器級的serverless技術,及卡級別的serverless技術,能夠實現卡級別和容器級別的資源調度,使資源利用率提升50%以上。

所謂serverless通常指無服務器架構,用戶不需要管理服務器,平台自動處理基礎設施。而容器級的serverless是指基於容器技術的serverless 解決方案,如 aws fargate、阿里雲函數計算支持容器等。

一般在大模型的部署應用中,可以將大模型封裝為容器鏡像,並通過 serverless 容器實現彈性推理,這樣就可以在低負載時僅保留1個實例維持熱啟動,節省資源,在峰值時秒級擴容多個實例,分攤推理壓力。

如某客服大模型使用serverless容器後,推理成本降低30%,並發處理能力提升5倍;某電商促銷活動中,容器級serverless平台在10秒內擴容2000個容器實例,處理峰值達10萬qps的商品推薦請求。

在行業人士看來,容器級serverless技術通過 「去基礎設施化」 重構了應用部署模式,讓容器技術從 「需要專業團隊運維的重資產」 變為 「即開即用的算力資源」。

同時,未來在雲服務體系中,容器級serverless也將向 「全域算力調度」 演進,實現中心雲、邊緣節點、端設備的容器實例統一管理,推動 「算力即服務(caas)」 的終極形態,即用戶無需關心算力在哪裡、如何運行,只需按需獲取容器化的計算能力。

可以看到,容器serverless技術進一步降低了企業用算力的門檻,尤其對中小企業而言,用上大模型將更加容易。

有了充足的底層算力資源,還能夠靈活高效的進行調配,但對於很多企業來說,還是希望能夠更充分的進行算力的利用,避免算力出現閑置問題。

為了解決企業的顧慮,華為雲還創新地推出了朝推夜訓模式,即通過訓推共池和靈活調度,白天進行模型推理,晚上閑時進行模型訓練,大幅提升超節點算力資源利用率。

其核心原理在於將訓練推理作業共用一個專屬資源池,支撐提前劃分訓練、推理邏輯子池,通過邏輯子池動態配合調整,實現訓推資源時分復用,節點在訓練和推理任務間切換<5分鐘。

從底層算力資源的擴張,到以雲服務的形式對算力資源進行靈活調配,再到充分保證企業對算力資源的利用率,可以看到,華為雲正在構建全方位體系化的ai算力供給能力。

而面向未來,除了對算力資源的調配和利用之外,如何保證算力資源更加穩定的供給,也將成為關鍵。

日新月異的大模型,更需要一朵穩定的雲

芯片管制升級,國產AI還得靠國產雲 - 天天要聞

「我們一年花費在雲端算力上的費用,大概十幾億元。」momenta創始人曹旭東曾透露。

智能駕駛的數據量非常龐大,且對數據的實時性要求非常高,畢竟這涉及到駕駛安全問題。而隨着端到端大模型的上車,對算力資源的需求更加龐大。

但端側的算力供給,遠遠不能夠達到智能駕駛的需求,基於雲-邊-端的混合架構,則成為了智能駕駛算力應用最常見的方式。而這背後,對算力服務支持的穩定性和可靠性也就要求更加嚴格。

這就需要算力服務商,具備對大模型故障的強感知能力。

華為雲最近把這種感知能力提升到了一個新標準——針對超大規模集群的故障感知提出了1-3-10標準。即不管是千卡集群,還是萬卡集群,亦或是10萬卡集群,華為昇騰ai雲服務能夠實現1分鐘感知故障、3分鐘故障定界、10分鐘故障恢復。

芯片管制升級,國產AI還得靠國產雲 - 天天要聞

能做到如此快速的故障恢復,源於背後昇騰雲腦的最新升級,其可實現全棧故障感知、診斷與快速自動恢復。

其中,在故障感知方面,通過靜默故障感知技術和算法,主動探測硬件進行功能或性能測試,根據測試結果及時發現並隔離性能衰減的「慢節點」,基於變化趨勢,預測硬件的潛在故障風險,提前進行隔離或更換。硬件故障感知率從40%提升至90%。

同時,昇騰雲腦的全棧故障知識庫已經覆蓋95%常見場景,可一鍵故障診斷準確率可達到80%,大大縮短網絡故障診斷時效。配合 「三層快恢技術」 ,實現萬卡集群故障10分鐘恢復的效果。

通過昇騰雲腦,華為雲則能夠快速感知故障並進行修復,能夠保證大模型長期穩定地運行。

事實上,除了汽車行業外,許多其他行業的人也都能感受到:「大模型的發展太快了。」

今年春節期間,deepseek第一次爆火,距今過去100多天,而在此期間,各種更新迭代的大模型產品、agent智能體產品,更是日新月異。

然而,相比於日新月異的大模型,作為底層基礎設施,數據中心交付周期卻相對比較漫長,從立項到建設完成,往往至少需要一年半載的時間,而此時大模型早已經更新迭代好幾批了,芯片也早就不是最新的。

也正因此,在中國智算中心建設周期中,有很多小型智算集群和數據中心,建完就出現閑置,原因就在於其已經不能夠滿足當下最新大模型的算力需求了。

那麼,在日新月異的大模型更新迭代背景之下,國內大模型企業想要能夠使用最新的算力基礎設施,雲的方式則成為了最優解,且對於行業用戶而言,用雲的性價比遠遠大於自建數據中心。

一方面,數據中心建設成本高,自建費時費力,且芯片更新換代快,自建idc將會大大增加企業的建設成本;另外,數據中心的運維難度高,整體架構更複雜,涉及到更多運維工具。

另外,更為重要的一點是,數據中心非常容易出現問題,導致各種故障,如果沒有積累深厚的系統化運維能力,很難實現數據中心的長穩智能運維。

畢竟,運維一個數據中心的時間長達10-15年,在漫長的運維過程中如何保障數據中心的可靠運行是每個基礎設施管理者首要的責任。

反觀中國的雲廠商,無論在軟硬件技術上,幾乎都是全球頂流的水平了。

比如華為雲,僅在中國就已經完成了全國三大雲核心樞紐布局,即貴州貴安、內蒙古烏蘭察布、安徽蕪湖,具備3大樞紐dc,百tb帶寬互聯,萬公里光纖骨幹網,覆蓋19大城市圈。

目前,這三大數據中心均已上線了超節點,「在全國主要的流量城市中,基本上在10毫秒內就可以訪問到這個超節點。」黃瑾說道,現在企業想要申請使用,分鐘級就可以開通。

當然,在龐大的數據中心運維中,華為雲也形成了體系化的能力,幫助超節點長穩智能地運維,能更好地幫助客戶的業務穩定高效地運行。

綜合來看,中國ai產業的基礎設施已經絕對擁有了軟硬件自主創新的能力,這種內循環的能力,會讓我們變得更加強大。

無端的科技戰,並不能夠阻擋中國ai產業的崛起,反而是成為了一種催化劑,讓主動擁抱國產算力的企業和機構變得更多。

一朵更加穩定的雲,才能夠為ai大模型走向落地,提供更加穩定的國產ai算力支持,幫助中國ai走得更高更遠。

未來,面向智能世界,華為雲將致力於做好行業數字化的「雲底座」和「使能器」,加速千行萬業智能化。

科技分類資訊推薦

async/await 錯誤處理的陷阱:生產環境踩過的5個坑 - 天天要聞

async/await 錯誤處理的陷阱:生產環境踩過的5個坑

async/await讓JavaScript異步編程變得更加直觀和優雅。然而,在處理錯誤時,這種語法糖也隱藏了許多容易被忽視的陷阱。作為一名經歷過無數深夜緊急修復的開發者,分享下生產環境中親身經歷的5個async/await錯誤處理陷阱,以
su7事故的內部會議,雷軍:「沒想到對小米打擊如此大」 - 天天要聞

su7事故的內部會議,雷軍:「沒想到對小米打擊如此大」

文|十五在閱讀此文之前,辛苦您點擊一下「關注」,既方便您進行討論和分享,又能給您帶來不一樣的參與感,感謝您的支持!今年的小米因為一場意外走向了前所未有的行業寒冬,一瞬間無數問題指向小米。三條人命的逝去,死者親人的痛訴,所有的問題都指向了事故
阿維塔12 2025款煥新升艙,26.99萬元起售 - 天天要聞

阿維塔12 2025款煥新升艙,26.99萬元起售

2025年5月7日,阿維塔科技宣布,阿維塔12 2025款煥新升艙,推出純電和增程雙動力,共6個車型版本,官方指導價為26.99-42.99萬元,權益與功能配置全維升級,權益後到手價為25.99-41.99萬元(限時權益自發佈之日起至2025年5月31日),新
終於來了,小米今天官宣的新機,為此我等了8年! - 天天要聞

終於來了,小米今天官宣的新機,為此我等了8年!

這兩天最重磅的消息,莫過於雷軍正式官宣了小米自研處理器玄戒01的存在。雷軍已經正式宣布,小米自主研發設計的手機處理器芯片,名稱叫做玄戒01,即將在5月下旬發佈。看到雷軍發佈的這個消息,毒哥還是非常感動的。
ToB話聊室:聯通聯合華為推出家庭機械人;梁文鋒發表DeepSeek V3回顧性論文 - 天天要聞

ToB話聊室:聯通聯合華為推出家庭機械人;梁文鋒發表DeepSeek V3回顧性論文

【ZOL中關村在線原創新聞】5月16日,歡迎收看《ToB話聊室》。在這裡,小編將跟你嘮一嘮科技領域的新鮮事兒。中國聯通聯合華為推出家庭機械人在今日的中國聯通「智家通通」產品發佈會上,中國聯通宣布聯合華為推出家庭機械人。據中國聯通方面介紹,智家通通為全國產、全自研。自主設計,架構自主設計,外觀結構自主設計;自...
華為今天發佈的4款新品,有點騷啊! - 天天要聞

華為今天發佈的4款新品,有點騷啊!

在5月19日華為召開國內新品發佈會之前,華為在海外市場已經召開了一次新品發佈會。在這場發佈會中,華為正式發佈了四款新品。並且其中部分新品,也將會在國內發售。在這裡,毒哥和大家盤點一下,華為在海外市場發佈了哪幾款新品。第一款新品,就是華為Wa
國產唯一六缸C級轎車煥新,25款紅旗H9還值得考慮嗎? - 天天要聞

國產唯一六缸C級轎車煥新,25款紅旗H9還值得考慮嗎?

隨着新能源車型的崛起,燃油車時代未能興盛的C級轎車,在這個時代比比皆是。雖然不少國產品牌都曾嘗試打造屬於自己的高級燃油C級轎車,但只有一個品牌成功熱銷並保持至今,這便是紅旗品牌推出的H9。為什麼說是唯一呢,因為當你在搜索器中選擇,中國品牌、中大型轎車、汽油動力