【硬體資訊】國產AI還是得用國產硬體啊！兆芯、摩爾線程全面支持DeepSeek，其他國產AI晶元也在路上！

分類：科技

瀏覽數：1722

2025-03-03

摩爾線程成功支持 deepseek 開源通信庫 deepep 和並行演算法 dualpipe

在 deepseek 開源周第四日，摩爾線程宣布已成功支持 deepseek 開源通信庫 deepep 和並行演算法 dualpipe，並發布相關開源代碼倉庫：mt-deepep 和 mt-dualpipe。

據介紹，deepep 是一個用於 moe（混合專家）模型訓練和推理的開源 ep（expert parallelism，專家並行）通信庫，主要適用於大模型訓練，特別是需要 ep 的集群訓練。它通過優化通信信道的使用率，提升了訓練效率。摩爾線程基於 musa compute capability 3.1 全功能 gpu 適配了 deepep，並支持以下特性：

高效優化的 all-to-all 通信，支持 dispatch & combine
支持 mtlink + gpu（musa compute capability 3.1）節點內通信
訓練及推理預填充階段的高吞吐量計算核心
推理解碼階段的低延遲計算核心
原生支持 fp8 數據分發
靈活控制 gpu 資源，實現計算與通信的高效重疊

dualpipe 是 deepseek-v3 提出的雙向流水線並行演算法，通過前向計算與後向計算階段的計算與通信完全重疊，減少了「流水線氣泡」（設備空閑等待）。摩爾線程依託深度學習框架 torch-musa（已開源）和 musa 軟體棧全方位的兼容性，實現了對 dualpipe 這一演算法的支持。

目前，mt-dualpipe 可以完整接入摩爾線程 mt-megatron 框架和 mt-transformerengine 框架（即將開源），實現 deepseek v3 訓練流程完整復現。此外，mt-dualpipe 結合 mt-megatron 可實現完整 deepseek v3 模型 mlp-ffn 分離以及 dw-dg 分離，進一步降低氣泡佔比，優化通信效率。同時，mt-dualpipe 與 mt-tranformerengine 和 mt-deepep 的結合，可利用 mt-deepep 和非同步通信引擎實現更高效的通信掩蓋，降低對計算資源損耗。

附 torch-musa 開源地址如下：

https://github.com/moorethreads/torch_musa

deepseek上線時間也不短了，各種各樣的ai應用廠商也紛紛接入，但我們似乎忘了最初令deepseek出圈的最大特色——更小的性能開銷和不依賴cuda單元。而得益於此，國產晶元廠商也迎來了表現的機會。摩爾線程gpu對deepseek進行了深度支持，包括了開源通信庫 deepep 和並行演算法 dualpipe，也是獲得了端側運行deepseek的能力。不過，相比於主流的部署方案，摩爾線程gpu的性能還是太弱了些……期待能出現更強的ai特化產品吧。

兆芯官宣：全系列整機形態成功部署deepseek r1大模型

兆芯宣布，基於其高性能通用處理器的pc終端、工作站以及伺服器成功實現deepseek-r1-distill模型（1.5b/7b/32b/70b/671b等）的本地部署，在保證推理效率的同時，能夠提供靈活的算力選擇，以滿足不同規模和需求的推理生成應用，面向用戶提供安全、智能、高效的ai應用體驗。

兆芯高性能通用處理器具備覆蓋筆記本、台式機、工作站、伺服器的全棧硬體解決方案能力，以及強大的軟體生態，原生支持以linux、windows、國產操作系統、及國產gpu加速卡等為基礎的deepseek大模型生態。

kx-7000台式機 - 成功本地部署deepseek-r1-7b模型，實現高性能桌面平台與先進ai模型的完美結合，充分發揮deepseek強大的語義理解和推理能力, 通過與wps word、excel以及vscode等常用工具的整合，可以實現智能文檔處理、數據處理以及智能編程等功能，為用戶帶來顯著的生產力提升和智能化體驗。
kh-40000/16伺服器 - 成功部署deepseek-r1-7b/14b/32b模型，採用聯和東海xrs302 ai工作站平台，搭配4張國內高性能gpu推理加速卡，可以提供信創+ai融合的高性價比、穩定高效的推理能力。
kh-40000/16工作站 - 成功部署deepseek-r1-32b模型，不僅能夠更好發揮模型的強大能力，還能在性能、效率和穩定性上實現全面優化，為更智能的ai應用提供強有力的支持。
kh-40000/32雙路伺服器 - 支持本地部署deepseek r1 671b模型，能夠為數學、編程和推理等多個領域應用提供安全可靠、高性能的平台與解決方案。

兆芯憑藉已建立的完善且成熟的軟硬體自主生態，支持多款國產gpu卡以及麒麟、統信、中科方德等國產操作系統，為部署deepseek模型提供了高性能、低成本、自主可控的解決方案。

而另一國產晶元——兆芯，則同樣受益於deepseek低性能開銷的特性，目前，已經在多款設備上支持了deepseek r1大模型的部署。當然，由於配置的不同，部署的尺寸總7b到671b不等，但也算是起了個好頭，希望能看到更多的國產硬體和國產ai的配合。

消息稱小鵬自研圖靈晶元有望 5 月上車：全面放棄英偉達 thor，性價比高太多

小鵬汽車於去年 8 月宣布自研圖靈晶元流片成功，40 核心可運行 30b 參數 ai 大模型，號稱面向 l4 自動駕駛打造。

據雷峰網今日援引知情人士消息，小鵬汽車自研晶元將在今年 5 月份實現首次上車。據悉，今年 5 月底或 6 月初，小鵬汽車將發布一款全新車型，該車將是搭載自研晶元的首款車型。

知情人士稱，單顆圖靈晶元算力比英偉達 orin x 的 254 tops 強大很多，只比還未量產的英偉達 thor 的中配版低一點。「（圖靈晶元算力）對於小鵬來說是足夠了，而且性價比比 thor 高太多了。」

該知情人士還透露，小鵬汽車現在「完全不鳥英偉達了」，只是在涉及此前 orin 晶元項目時才有聯繫。據透露，小鵬汽車接下來所有全新車型都將會搭載自研晶元，不再計劃搭載 thor 晶元。

報道還提到，今年小鵬汽車將有多款全新車型會上市，規劃之中的 g01 是比 g9 更大的一款 7 座 suv；還有一款全新車型叫 g7，比 g6 更高一級；此外，mpv 車型 x9 的改款車型將會增加增程版本。「全新車型可能有 4 個，算上大改款、小改款，小鵬今年的新車型或多達十幾款。」上述知情人士表示。

it之家從小鵬汽車發布會獲悉，小鵬圖靈 ai 晶元可同時應用在 ai 機器人、ai 汽車、飛行汽車上，號稱與英偉達 orin x 相比一顆頂三顆，自動駕駛、智能座艙大模型都可驅動。去年 10 月份，小鵬已經在圖靈晶元上跑通了智駕功能。

小鵬汽車還表示，經過深度定製，圖靈晶元算力可達到 100% 極致利用，未來 ai 汽車將搭載至少 3 顆圖靈晶元。

而在deepseek以外的應用ai領域，智駕顯然是很好的應用場景。而國產新能源汽車廠商中，小鵬顯然選擇了更難但做好之後收益更高的選擇——自研晶元。事實上，新能源車企中的領頭羊選手——特斯拉，就是這樣選擇的。據稱新的專用晶元會比nvidia orin x算力還要高，而且可能在5月底或6月初就會有首款晶元搭載，不知道這種專用的ai晶元能不能再智駕領域有更好的表現了。

歡迎加入

備註：

文章轉載自網路（鏈接如上）。文章出現的任何圖片，標誌均屬於其合法持有人；本文僅作傳遞信息之用。如有侵權可在本文內留言。

引用文章內容與觀點不代表電腦吧評測室觀點。

科技分類資訊推薦