近日
DeepSeek團隊發表新論文
論文以DeepSeek-V3為核心案例
披露其在AI硬件架構
與模型設計方面的關鍵創新
為實現具有成本效益的
大規模訓練和推理提供思路
論文顯示
DeepSeek創始人兼CEO梁文鋒
也是參與者之一
DeepSeek論文《深入解讀 DeepSeek-V3:AI 架構的擴展挑戰與硬件思考》
圖源:論文截圖
有業內人士表示
該論文聚焦“硬件-模型”
協同創新底層邏輯
直擊當前大模型訓練
與推理的效率痛點
一起來看↓
揭秘DeepSeek模型設計原則
在訓練大模型這條路上
可以說一直有“三大難題”
內存不夠用
計算效率低
通信速度慢
而這篇論文所要解決的
正是上述的這些問題
與此前發布的V3技術報告不同
這篇論文詳細闡述了DeepSeek
如何做到在硬件資源的“緊箍咒”下
通過精妙的“軟硬一體”協同設計
將成本效益這筆賬算好
DeepSeek在論文中提到
本文的目的不是重申
DeepSeek-V3的詳細架構和算法細節
是跨越硬件架構和模型設計
採用雙重視角來探索它們之間
錯綜複雜的相互作用
以實現具有成本效益的
大規模訓練和推理
DeepSeek-V3的基本架構
圖源:論文截圖
具體而言
論文聚焦內存效率、成本控制、
推理速度等方面展開說明
DeepSeek模型設計原則
在內存效率方面
多頭潛在注意力(MLA)技術
通過壓縮鍵值(KV)緩存
緩存顯著降低了內存消耗
FP8混合精度訓練技術
將內存消耗顯著降低了一半
從數據來看
相比其他模型
(如LLaMA-3、Qwen-2.5)
DeepSeek-V3的KV緩存大小
每token僅需70 KB
是傳統方法的1/7到1/4
大幅降低顯存壓力
尤其適合長文本處理
在成本控制方面
DeepSeek開發了DeepSeek MoE架構
其兩大優勢包括降低訓練成本
和利於個人使用和本地部署
在提高推理速度方面
DeepSeek-V3採用的是
多token預測(MTP)的方法
傳統模型每次只能生成1個token
而MTP通過輕量級子模型並行
預測多個候選token
驗證後選擇最優結果。
實驗效果顯示
生成速度提升1.8倍
OpenAI聯合創始人
Andrej Karpathy此前讚歎
“DeepSeek-V3的出現
實現了高性能與低成本的平衡
未來或許不需要
超大規模的GPU集群了”
六大關鍵探索未來AI基礎設施
下一代AI基礎設施
將如何升級?
DeepSeek從硬件架構的角度
提出六大方向
涉及內存、互連、網絡、
計算等核心領域
圖源:虎嗅
整體來看,包括
“魯棒性優先:
構建不易崩潰的訓練系統”
“顛覆互連架構:
CPU-GPU直連消除節點瓶頸”
“智能網絡升級:
動態路由實現低延遲”
“通信順序‘硬件化’:
消除軟件額外開銷”
“網絡計算融合:
硬件加速通信效率”
“內存架構重構:
從‘芯片堆疊’到‘晶圓集成’”
這些專業名詞
非行家乍一看有些難懂
有業內人士“翻譯”稱
就是下一代AI硬件要向
算數快(低精度計算+本地細粒度量化)
傳話快(直連網絡+智能路由)
記性好(3D內存+近存計算)
不宕機(自愈網絡)的方向改進
才能更好地應用於大模型訓練
實現高效擴展
圖源:網絡
DeepSeek表示
這些內存中心的架構創新
旨在打破當前內存發展
滯後於模型規模擴張的瓶頸
是下一代AI系統持續邁向
“更大、更快、更穩”的關鍵路徑之一
同時這些方案也在DeepSeek-V3
訓練與推理實踐中均取得了實效
為下一代高性能AI系統
構建了堅實的內存支撐基礎