【硬件資訊】國產AI還是得用國產硬件啊!兆芯、摩爾線程全面支持DeepSeek,其他國產AI芯片也在路上!

2025年03月03日22:30:36 科技 1722

摩爾線程成功支持 deepseek 開源通信庫 deepep 和並行算法 dualpipe

在 deepseek 開源周第四日,摩爾線程宣布已成功支持 deepseek 開源通信庫 deepep 和並行算法 dualpipe,並發佈相關開源代碼倉庫:mt-deepep 和 mt-dualpipe。
【硬件資訊】國產AI還是得用國產硬件啊!兆芯、摩爾線程全面支持DeepSeek,其他國產AI芯片也在路上! - 天天要聞
據介紹,deepep 是一個用於 moe(混合專家)模型訓練和推理的開源 ep(expert parallelism,專家並行)通信庫,主要適用於大模型訓練,特別是需要 ep 的集群訓練。它通過優化通信信道的使用率,提升了訓練效率。摩爾線程基於 musa compute capability 3.1 全功能 gpu 適配了 deepep,並支持以下特性:
  • 高效優化的 all-to-all 通信,支持 dispatch & combine
  • 支持 mtlink + gpu(musa compute capability 3.1)節點內通信
  • 訓練及推理預填充階段的高吞吐量計算核心
  • 推理解碼階段的低延遲計算核心
  • 原生支持 fp8 數據分發
  • 靈活控制 gpu 資源,實現計算與通信的高效重疊
dualpipe 是 deepseek-v3 提出的雙向流水線並行算法,通過前向計算與後向計算階段的計算與通信完全重疊,減少了「流水線氣泡」(設備空閑等待)。摩爾線程依託深度學習框架 torch-musa(已開源)和 musa 軟件棧全方位的兼容性,實現了對 dualpipe 這一算法的支持。
目前,mt-dualpipe 可以完整接入摩爾線程 mt-megatron 框架和 mt-transformerengine 框架(即將開源),實現 deepseek v3 訓練流程完整復現。此外,mt-dualpipe 結合 mt-megatron 可實現完整 deepseek v3 模型 mlp-ffn 分離以及 dw-dg 分離,進一步降低氣泡佔比,優化通信效率。同時,mt-dualpipe 與 mt-tranformerengine 和 mt-deepep 的結合,可利用 mt-deepep 和異步通信引擎實現更高效的通信掩蓋,降低對計算資源損耗。
附 torch-musa 開源地址如下:
https://github.com/moorethreads/torch_musa

    

    deepseek上線時間也不短了,各種各樣的ai應用廠商也紛紛接入,但我們似乎忘了最初令deepseek出圈的最大特色——更小的性能開銷和不依賴cuda單元。而得益於此,國產芯片廠商也迎來了表現的機會。摩爾線程gpu對deepseek進行了深度支持,包括了開源通信庫 deepep 和並行算法 dualpipe,也是獲得了端側運行deepseek的能力。不過,相比於主流的部署方案,摩爾線程gpu的性能還是太弱了些……期待能出現更強的ai特化產品吧。


兆芯官宣:全系列整機形態成功部署deepseek r1大模型

兆芯宣布,基於其高性能通用處理器的pc終端、工作站以及服務器成功實現deepseek-r1-distill模型(1.5b/7b/32b/70b/671b等)的本地部署,在保證推理效率的同時,能夠提供靈活的算力選擇,以滿足不同規模和需求的推理生成應用,面向用戶提供安全、智能、高效的ai應用體驗。
【硬件資訊】國產AI還是得用國產硬件啊!兆芯、摩爾線程全面支持DeepSeek,其他國產AI芯片也在路上! - 天天要聞
兆芯高性能通用處理器具備覆蓋筆記本、台式機、工作站、服務器的全棧硬件解決方案能力,以及強大的軟件生態,原生支持以linux、windows、國產操作系統、及國產gpu加速卡等為基礎的deepseek大模型生態。
  • kx-7000台式機 - 成功本地部署deepseek-r1-7b模型,實現高性能桌面平台與先進ai模型的完美結合,充分發揮deepseek強大的語義理解和推理能力, 通過與wps word、excel以及vscode等常用工具的整合,可以實現智能文檔處理、數據處理以及智能編程等功能,為用戶帶來顯著的生產力提升和智能化體驗。
  • kh-40000/16服務器 - 成功部署deepseek-r1-7b/14b/32b模型,採用聯和東海xrs302 ai工作站平台,搭配4張國內高性能gpu推理加速卡,可以提供信創+ai融合的高性價比、穩定高效的推理能力。
  • kh-40000/16工作站 - 成功部署deepseek-r1-32b模型,不僅能夠更好發揮模型的強大能力,還能在性能、效率和穩定性上實現全面優化,為更智能的ai應用提供強有力的支持。
  • kh-40000/32雙路服務器 - 支持本地部署deepseek r1 671b模型,能夠為數學、編程和推理等多個領域應用提供安全可靠、高性能的平台與解決方案。
兆芯憑藉已建立的完善且成熟的軟硬件自主生態,支持多款國產gpu卡以及麒麟、統信、中科方德等國產操作系統,為部署deepseek模型提供了高性能、低成本、自主可控的解決方案。

    而另一國產芯片——兆芯,則同樣受益於deepseek低性能開銷的特性,目前,已經在多款設備上支持了deepseek r1大模型的部署。當然,由於配置的不同,部署的尺寸總7b到671b不等,但也算是起了個好頭,希望能看到更多的國產硬件和國產ai的配合。


消息稱小鵬自研圖靈芯片有望 5 月上車:全面放棄英偉達 thor,性價比高太多

小鵬汽車於去年 8 月宣布自研圖靈芯片流片成功,40 核心可運行 30b 參數 ai 大模型,號稱面向 l4 自動駕駛打造。
據雷峰網今日援引知情人士消息,小鵬汽車自研芯片將在今年 5 月份實現首次上車。據悉,今年 5 月底或 6 月初,小鵬汽車將發佈一款全新車型,該車將是搭載自研芯片的首款車型。
【硬件資訊】國產AI還是得用國產硬件啊!兆芯、摩爾線程全面支持DeepSeek,其他國產AI芯片也在路上! - 天天要聞
知情人士稱,單顆圖靈芯片算力比英偉達 orin x 的 254 tops 強大很多,只比還未量產的英偉達 thor 的中配版低一點。「(圖靈芯片算力)對於小鵬來說是足夠了,而且性價比比 thor 高太多了。」
該知情人士還透露,小鵬汽車現在「完全不鳥英偉達了」,只是在涉及此前 orin 芯片項目時才有聯繫。據透露,小鵬汽車接下來所有全新車型都將會搭載自研芯片,不再計劃搭載 thor 芯片。
【硬件資訊】國產AI還是得用國產硬件啊!兆芯、摩爾線程全面支持DeepSeek,其他國產AI芯片也在路上! - 天天要聞
報道還提到,今年小鵬汽車將有多款全新車型會上市,規劃之中的 g01 是比 g9 更大的一款 7 座 suv;還有一款全新車型叫 g7,比 g6 更高一級;此外,mpv 車型 x9 的改款車型將會增加增程版本。「全新車型可能有 4 個,算上大改款、小改款,小鵬今年的新車型或多達十幾款。」上述知情人士表示。
【硬件資訊】國產AI還是得用國產硬件啊!兆芯、摩爾線程全面支持DeepSeek,其他國產AI芯片也在路上! - 天天要聞
it之家從小鵬汽車發佈會獲悉,小鵬圖靈 ai 芯片可同時應用在 ai 機械人、ai 汽車、飛行汽車上,號稱與英偉達 orin x 相比一顆頂三顆,自動駕駛、智能座艙大模型都可驅動。去年 10 月份,小鵬已經在圖靈芯片上跑通了智駕功能。
【硬件資訊】國產AI還是得用國產硬件啊!兆芯、摩爾線程全面支持DeepSeek,其他國產AI芯片也在路上! - 天天要聞
小鵬汽車還表示,經過深度定製,圖靈芯片算力可達到 100% 極致利用,未來 ai 汽車將搭載至少 3 顆圖靈芯片。

    而在deepseek以外的應用ai領域,智駕顯然是很好的應用場景。而國產新能源汽車廠商中,小鵬顯然選擇了更難但做好之後收益更高的選擇——自研芯片。事實上,新能源車企中的領頭羊選手——特斯拉,就是這樣選擇的。據稱新的專用芯片會比nvidia orin x算力還要高,而且可能在5月底或6月初就會有首款芯片搭載,不知道這種專用的ai芯片能不能再智駕領域有更好的表現了。



歡迎加入
備註
    文章轉載自網絡(鏈接如上)。文章出現的任何圖片,標誌均屬於其合法持有人;本文僅作傳遞信息之用。如有侵權可在本文內留言。
    引用文章內容與觀點不代表電腦吧評測室觀點。

科技分類資訊推薦

電動牙刷哪個牌子的好用?帶你一次盤點品牌前十名產品優勢 - 天天要聞

電動牙刷哪個牌子的好用?帶你一次盤點品牌前十名產品優勢

隨着現代人口腔問題日益增多,刷牙作為口腔護理的關鍵環節顯得尤為重要。相比傳統牙刷可能存在的清潔不徹底問題,專業電動牙刷能顯著提升清潔效果,有效預防口腔疾病。然而,市面上不少產品存在過度清潔的問題,容易引發牙齒敏感、出血、牙齦不適等不良反應。
要續航有續航,要性能有性能,價格只要1989元 - 天天要聞

要續航有續航,要性能有性能,價格只要1989元

不知道大家有沒有這樣的消費習慣:預算不高,眼光還挺高。想買個性能好的手機,拍照不能拉胯,屏幕要護眼,電池要耐用,關鍵是還不能貴,最好一千多塊就能拿下,買完了還得跟朋友吹:「你看,我花這麼點錢買的手機,多值啊!」放在兩年前,你要真有這種心思,
【裝機幫扶站】第1240期:2000/3500/6000:聊幾套用戶需求較高的配置組裝方案 - 天天要聞

【裝機幫扶站】第1240期:2000/3500/6000:聊幾套用戶需求較高的配置組裝方案

【Q1】預算6000元左右,希望上一張RTX5060Ti/16GB,日常還要做一些簡單設計,希望內存至少達到32GB,請問配置如何組更加合理?盡量不超預算,謝謝!【A1】目前RTX5060Ti/16GB的市場熱度非常高,所以價格相比前期出現了小漲,就連丐中丐雙風扇散熱的產品也要賣3799~3899元的樣子,因此6000元的總預算實際非常吃緊,你只能「...
【硬件資訊】NVIDIA不再保守?物理引擎Newton開源,NVLink Fusion開放授權,合作推出Fast-dLLM 框架 - 天天要聞

【硬件資訊】NVIDIA不再保守?物理引擎Newton開源,NVLink Fusion開放授權,合作推出Fast-dLLM 框架

新聞:英偉達:計劃於 7 月開源全球最先進的物理引擎 Newton5 月 19 日消息,在今日的台北電腦展 2025 主題演講中,英偉達 CEO 黃仁勛表示,在物理世界中製造機械人「不切實際」,必須在遵循物理定律的虛擬世界中訓練它們。英偉達與 DeepMind 和 Disney Research 研究合作開發了「全球最先進的物理引擎 Newton」,計劃於.
回應 WP Engine 商標爭議事件:Linux 基金會推出 FAIR 項目 - 天天要聞

回應 WP Engine 商標爭議事件:Linux 基金會推出 FAIR 項目

IT之家 6 月 9 日消息,Linux 基金會於 6 月 6 日宣布啟動一個名為 FAIR Package Manager(FAIR)的項目,旨在打造一個去中心化的 WordPress 插件與主題生態系統,該項目意圖將控制權歸還給網站託管服務商和開發者,被業界廣泛認為是回應 WP Engine 爭議事件的一項延伸舉措。根據項目官方介紹,FAIR 套件管理器
從3199元跌至1835元,天璣9400+120w+超聲波指紋,水桶機更親民 - 天天要聞

從3199元跌至1835元,天璣9400+120w+超聲波指紋,水桶機更親民

手機行業每一年都有大變動,就不能懷着之前的想法去買手機,如果去年618你想買高性能手機,最起碼預算要有個兩千五以上,而且當時買驍龍8Gen 3手機,還要接近三千元的預算,也就是天璣9300手機會更便宜一些,當時降到兩千六七,不過那會沒有國補