【硬體資訊】國產AI還是得用國產硬體啊!兆芯、摩爾線程全面支持DeepSeek,其他國產AI晶元也在路上!

摩爾線程成功支持 deepseek 開源通信庫 deepep 和並行演算法 dualpipe

在 deepseek 開源周第四日,摩爾線程宣布已成功支持 deepseek 開源通信庫 deepep 和並行演算法 dualpipe,並發布相關開源代碼倉庫:mt-deepep 和 mt-dualpipe。
據介紹,deepep 是一個用於 moe(混合專家)模型訓練和推理的開源 ep(expert parallelism,專家並行)通信庫,主要適用於大模型訓練,特別是需要 ep 的集群訓練。它通過優化通信信道的使用率,提升了訓練效率。摩爾線程基於 musa compute capability 3.1 全功能 gpu 適配了 deepep,並支持以下特性:
  • 高效優化的 all-to-all 通信,支持 dispatch & combine
  • 支持 mtlink + gpu(musa compute capability 3.1)節點內通信
  • 訓練及推理預填充階段的高吞吐量計算核心
  • 推理解碼階段的低延遲計算核心
  • 原生支持 fp8 數據分發
  • 靈活控制 gpu 資源,實現計算與通信的高效重疊
dualpipe 是 deepseek-v3 提出的雙向流水線並行演算法,通過前向計算與後向計算階段的計算與通信完全重疊,減少了「流水線氣泡」(設備空閑等待)。摩爾線程依託深度學習框架 torch-musa(已開源)和 musa 軟體棧全方位的兼容性,實現了對 dualpipe 這一演算法的支持。
目前,mt-dualpipe 可以完整接入摩爾線程 mt-megatron 框架和 mt-transformerengine 框架(即將開源),實現 deepseek v3 訓練流程完整復現。此外,mt-dualpipe 結合 mt-megatron 可實現完整 deepseek v3 模型 mlp-ffn 分離以及 dw-dg 分離,進一步降低氣泡佔比,優化通信效率。同時,mt-dualpipe 與 mt-tranformerengine 和 mt-deepep 的結合,可利用 mt-deepep 和非同步通信引擎實現更高效的通信掩蓋,降低對計算資源損耗。
附 torch-musa 開源地址如下:
https://github.com/moorethreads/torch_musa

    

    deepseek上線時間也不短了,各種各樣的ai應用廠商也紛紛接入,但我們似乎忘了最初令deepseek出圈的最大特色——更小的性能開銷和不依賴cuda單元。而得益於此,國產晶元廠商也迎來了表現的機會。摩爾線程gpu對deepseek進行了深度支持,包括了開源通信庫 deepep 和並行演算法 dualpipe,也是獲得了端側運行deepseek的能力。不過,相比於主流的部署方案,摩爾線程gpu的性能還是太弱了些……期待能出現更強的ai特化產品吧。

兆芯官宣:全系列整機形態成功部署deepseek r1大模型

兆芯宣布,基於其高性能通用處理器的pc終端、工作站以及伺服器成功實現deepseek-r1-distill模型(1.5b/7b/32b/70b/671b等)的本地部署,在保證推理效率的同時,能夠提供靈活的算力選擇,以滿足不同規模和需求的推理生成應用,面向用戶提供安全、智能、高效的ai應用體驗。
兆芯高性能通用處理器具備覆蓋筆記本、台式機、工作站、伺服器的全棧硬體解決方案能力,以及強大的軟體生態,原生支持以linux、windows、國產操作系統、及國產gpu加速卡等為基礎的deepseek大模型生態。
  • kx-7000台式機 - 成功本地部署deepseek-r1-7b模型,實現高性能桌面平台與先進ai模型的完美結合,充分發揮deepseek強大的語義理解和推理能力, 通過與wps word、excel以及vscode等常用工具的整合,可以實現智能文檔處理、數據處理以及智能編程等功能,為用戶帶來顯著的生產力提升和智能化體驗。
  • kh-40000/16伺服器 - 成功部署deepseek-r1-7b/14b/32b模型,採用聯和東海xrs302 ai工作站平台,搭配4張國內高性能gpu推理加速卡,可以提供信創+ai融合的高性價比、穩定高效的推理能力。
  • kh-40000/16工作站 - 成功部署deepseek-r1-32b模型,不僅能夠更好發揮模型的強大能力,還能在性能、效率和穩定性上實現全面優化,為更智能的ai應用提供強有力的支持。
  • kh-40000/32雙路伺服器 - 支持本地部署deepseek r1 671b模型,能夠為數學、編程和推理等多個領域應用提供安全可靠、高性能的平台與解決方案。
兆芯憑藉已建立的完善且成熟的軟硬體自主生態,支持多款國產gpu卡以及麒麟、統信、中科方德等國產操作系統,為部署deepseek模型提供了高性能、低成本、自主可控的解決方案。
    而另一國產晶元——兆芯,則同樣受益於deepseek低性能開銷的特性,目前,已經在多款設備上支持了deepseek r1大模型的部署。當然,由於配置的不同,部署的尺寸總7b到671b不等,但也算是起了個好頭,希望能看到更多的國產硬體和國產ai的配合。

消息稱小鵬自研圖靈晶元有望 5 月上車:全面放棄英偉達 thor,性價比高太多

小鵬汽車於去年 8 月宣布自研圖靈晶元流片成功,40 核心可運行 30b 參數 ai 大模型,號稱面向 l4 自動駕駛打造。
據雷峰網今日援引知情人士消息,小鵬汽車自研晶元將在今年 5 月份實現首次上車。據悉,今年 5 月底或 6 月初,小鵬汽車將發布一款全新車型,該車將是搭載自研晶元的首款車型。
知情人士稱,單顆圖靈晶元算力比英偉達 orin x 的 254 tops 強大很多,只比還未量產的英偉達 thor 的中配版低一點。「(圖靈晶元算力)對於小鵬來說是足夠了,而且性價比比 thor 高太多了。」
該知情人士還透露,小鵬汽車現在「完全不鳥英偉達了」,只是在涉及此前 orin 晶元項目時才有聯繫。據透露,小鵬汽車接下來所有全新車型都將會搭載自研晶元,不再計劃搭載 thor 晶元。
報道還提到,今年小鵬汽車將有多款全新車型會上市,規劃之中的 g01 是比 g9 更大的一款 7 座 suv;還有一款全新車型叫 g7,比 g6 更高一級;此外,mpv 車型 x9 的改款車型將會增加增程版本。「全新車型可能有 4 個,算上大改款、小改款,小鵬今年的新車型或多達十幾款。」上述知情人士表示。
it之家從小鵬汽車發布會獲悉,小鵬圖靈 ai 晶元可同時應用在 ai 機器人、ai 汽車、飛行汽車上,號稱與英偉達 orin x 相比一顆頂三顆,自動駕駛、智能座艙大模型都可驅動。去年 10 月份,小鵬已經在圖靈晶元上跑通了智駕功能。
小鵬汽車還表示,經過深度定製,圖靈晶元算力可達到 100% 極致利用,未來 ai 汽車將搭載至少 3 顆圖靈晶元。
    而在deepseek以外的應用ai領域,智駕顯然是很好的應用場景。而國產新能源汽車廠商中,小鵬顯然選擇了更難但做好之後收益更高的選擇——自研晶元。事實上,新能源車企中的領頭羊選手——特斯拉,就是這樣選擇的。據稱新的專用晶元會比nvidia orin x算力還要高,而且可能在5月底或6月初就會有首款晶元搭載,不知道這種專用的ai晶元能不能再智駕領域有更好的表現了。

歡迎加入
備註
    文章轉載自網路(鏈接如上)。文章出現的任何圖片,標誌均屬於其合法持有人;本文僅作傳遞信息之用。如有侵權可在本文內留言。
    引用文章內容與觀點不代表電腦吧評測室觀點。