梁文锋署名,DeepSeek再发论文

2025年05月17日12:42:09 科技 1421

近日

DeepSeek团队发表新论文

论文以DeepSeek-V3为核心案例

披露其在AI硬件架构

与模型设计方面的关键创新

为实现具有成本效益的

大规模训练和推理提供思路

论文显示

DeepSeek创始人兼CEO梁文锋

也是参与者之一


梁文锋署名,DeepSeek再发论文 - 天天要闻

DeepSeek论文《深入解读 DeepSeek-V3:AI 架构的扩展挑战与硬件思考》

图源:论文截图


有业内人士表示

该论文聚焦“硬件-模型”

协同创新底层逻辑

直击当前大模型训练

与推理的效率痛点

一起来看↓


揭秘DeepSeek模型设计原则


在训练大模型这条路上

可以说一直有“三大难题”

内存不够用

计算效率低

通信速度慢

而这篇论文所要解决的

正是上述的这些问题


与此前发布的V3技术报告不同

这篇论文详细阐述了DeepSeek

如何做到在硬件资源的“紧箍咒”下

通过精妙的“软硬一体”协同设计

将成本效益这笔账算好


DeepSeek在论文中提到

本文的目的不是重申

DeepSeek-V3的详细架构和算法细节

是跨越硬件架构和模型设计

采用双重视角来探索它们之间

错综复杂的相互作用

以实现具有成本效益的

大规模训练和推理


梁文锋署名,DeepSeek再发论文 - 天天要闻

DeepSeek-V3的基本架构

图源:论文截图


具体而言

论文聚焦内存效率、成本控制、

推理速度等方面展开说明

DeepSeek模型设计原则


在内存效率方面

多头潜在注意力(MLA)技术

通过压缩键值(KV)缓存

缓存显著降低了内存消耗

FP8混合精度训练技术

将内存消耗显著降低了一半


从数据来看

相比其他模型

(如LLaMA-3、Qwen-2.5)

DeepSeek-V3的KV缓存大小

每token仅需70 KB

是传统方法的1/7到1/4

大幅降低显存压力

尤其适合长文本处理


在成本控制方面

DeepSeek开发了DeepSeek MoE架构

其两大优势包括降低训练成本

和利于个人使用和本地部署


在提高推理速度方面

DeepSeek-V3采用的是

多token预测(MTP)的方法

传统模型每次只能生成1个token

而MTP通过轻量级子模型并行

预测多个候选token

验证后选择最优结果。

实验效果显示

生成速度提升1.8倍


OpenAI联合创始人

Andrej Karpathy此前赞叹

“DeepSeek-V3的出现

实现了高性能与低成本的平衡

未来或许不需要

超大规模的GPU集群了”


六大关键探索未来AI基础设施


下一代AI基础设施

将如何升级?

DeepSeek从硬件架构的角度

提出六大方向

涉及内存、互连、网络、

计算等核心领域


梁文锋署名,DeepSeek再发论文 - 天天要闻

图源:虎嗅


整体来看,包括

“鲁棒性优先:

构建不易崩溃的训练系统”

“颠覆互连架构:

CPU-GPU直连消除节点瓶颈”

“智能网络升级:

动态路由实现低延迟”

“通信顺序‘硬件化’:

消除软件额外开销”

“网络计算融合:

硬件加速通信效率”

“内存架构重构:

从‘芯片堆叠’到‘晶圆集成’”


这些专业名词

非行家乍一看有些难懂

有业内人士“翻译”称

就是下一代AI硬件要向

算数快(低精度计算+本地细粒度量化)

传话快(直连网络+智能路由)

记性好(3D内存+近存计算)

不宕机(自愈网络)的方向改进

才能更好地应用于大模型训练

实现高效扩展


梁文锋署名,DeepSeek再发论文 - 天天要闻

图源:网络


DeepSeek表示

这些内存中心的架构创新

旨在打破当前内存发展

滞后于模型规模扩张的瓶颈

是下一代AI系统持续迈向

“更大、更快、更稳”的关键路径之一

同时这些方案也在DeepSeek-V3

训练与推理实践中均取得了实效

为下一代高性能AI系统

构建了坚实的内存支撑基础

科技分类资讯推荐

从聊天机器人到协作伙伴:AI智能体如何重塑企业工作 - 天天要闻

从聊天机器人到协作伙伴:AI智能体如何重塑企业工作

Scott White至今仍对人工智能从新奇技术转变为真正工作伙伴的速度感到惊叹。仅仅一年多前,这位Anthropic公司Claude AI产品负责人目睹了早期AI编程工具甚至无法完成一行代码的窘境。如今,尽管并非专业程序员,他却能亲自构建
小米 16 系列迎最新爆料,Pro 系列镜头模组大改,横向延伸全尺寸设计 - 天天要闻

小米 16 系列迎最新爆料,Pro 系列镜头模组大改,横向延伸全尺寸设计

近日,包括数码闲聊站在内等多个消息源,就下一代旗舰新机纷纷进行了最新爆料,其中小米 16 系列也在近日迎来了最新消息。根据最新爆料来看,小米 16 系列将会在以往的标准版、Pro 版、Ultra 的基础上新增一款 Pro Max 型号。但一一对应来看,新款的小米 16 Pro 即对标标准版 , 为大家熟悉的 6.3 英寸小尺寸旗舰机型。而 1...
魅族 22 系列手机本月到来,提供全新开模小尺寸旗舰版本 - 天天要闻

魅族 22 系列手机本月到来,提供全新开模小尺寸旗舰版本

伴随着时间来到 7 月,各大手机厂商的新机更新计划有所放缓,不过根据多方爆料来看,“小厂代表” 星纪魅族旗下的魅族 22 系列将会在本月与大家见面。目前魅族 22 系列仍然十分 “神秘”,欠缺主要的配置爆料与外观图片作为参考。但根据部分什么爆料者的消息来看,魅族 22 系列将会全新开模,并提供小尺寸旗舰版本可供选择...
vivo X300 Pro 更多细节曝光,大 R 角直面屏,新款大底主摄方案加持 - 天天要闻

vivo X300 Pro 更多细节曝光,大 R 角直面屏,新款大底主摄方案加持

今天数码博主数码闲聊站在与网友互动中,透露了一款搭载联发科天玑 9500 的 “大杯” 工程机的最新进展。参考爆料内容与评论区互动来看,预计为 vivo X300 Pro。除搭载联发科天玑 9500 外,据悉该机一大变化之处在于屏幕部分,根据最新消息来看将会搭载一块大 R 角直屏,不再采用曲面屏或微曲面屏设计。而这也将成为下一代...
数据驱动,柔性智能建造平台助力高效管理 - 天天要闻

数据驱动,柔性智能建造平台助力高效管理

长沙晚报掌上长沙7月1日讯(全媒体记者 刘嘉)6月30日,由长沙市智能建造产业链推进办公室与中建五局三公司联合承办的“创新驱动 智建未来”科技活动举行。该活动不仅展示了长沙在智能建造领域的创新成果,也为行业高质量发展提供了可复制的实践经验。
以前不敢想,机械革命搭配出4959元的RTX5050本,还有2.5K屏 - 天天要闻

以前不敢想,机械革命搭配出4959元的RTX5050本,还有2.5K屏

最近RTX5050本开始大面积登场,很多消费者也想知道,厂商到底能搭配出什么样配置?结果机械革命没有让大家失望,搭配出一个6199元的新品,补贴后价格4959元,再一次刷新新显卡笔记本的价格新低。同时,其配置还不是很潦草,还是很平衡的,让我们来看看。这款本配置了R9 7845HX处理器,12核心,24线程,台积电5nm工艺,Zen4...
中国移动三大核心布局 助力南亚东南亚数字经济新发展 - 天天要闻

中国移动三大核心布局 助力南亚东南亚数字经济新发展

【来源:云南网】6月30日,由云南省人民政府和云南省工业和信息化厅联合举办的面向南亚东南亚数字合作推介会在北京举行,中国移动副总经理陈怀达出席,中国移动数智化部副总经理陶涛发表主题为《建设跨境数据交易高速公路,服务数字信息大通道建设》的演讲