梁文锋署名,DeepSeek再发论文

2025年05月17日12:42:09 科技 1421

近日

DeepSeek团队发表新论文

论文以DeepSeek-V3为核心案例

披露其在AI硬件架构

与模型设计方面的关键创新

为实现具有成本效益的

大规模训练和推理提供思路

论文显示

DeepSeek创始人兼CEO梁文锋

也是参与者之一


梁文锋署名,DeepSeek再发论文 - 天天要闻

DeepSeek论文《深入解读 DeepSeek-V3:AI 架构的扩展挑战与硬件思考》

图源:论文截图


有业内人士表示

该论文聚焦“硬件-模型”

协同创新底层逻辑

直击当前大模型训练

与推理的效率痛点

一起来看↓


揭秘DeepSeek模型设计原则


在训练大模型这条路上

可以说一直有“三大难题”

内存不够用

计算效率低

通信速度慢

而这篇论文所要解决的

正是上述的这些问题


与此前发布的V3技术报告不同

这篇论文详细阐述了DeepSeek

如何做到在硬件资源的“紧箍咒”下

通过精妙的“软硬一体”协同设计

将成本效益这笔账算好


DeepSeek在论文中提到

本文的目的不是重申

DeepSeek-V3的详细架构和算法细节

是跨越硬件架构和模型设计

采用双重视角来探索它们之间

错综复杂的相互作用

以实现具有成本效益的

大规模训练和推理


梁文锋署名,DeepSeek再发论文 - 天天要闻

DeepSeek-V3的基本架构

图源:论文截图


具体而言

论文聚焦内存效率、成本控制、

推理速度等方面展开说明

DeepSeek模型设计原则


在内存效率方面

多头潜在注意力(MLA)技术

通过压缩键值(KV)缓存

缓存显著降低了内存消耗

FP8混合精度训练技术

将内存消耗显著降低了一半


从数据来看

相比其他模型

(如LLaMA-3、Qwen-2.5)

DeepSeek-V3的KV缓存大小

每token仅需70 KB

是传统方法的1/7到1/4

大幅降低显存压力

尤其适合长文本处理


在成本控制方面

DeepSeek开发了DeepSeek MoE架构

其两大优势包括降低训练成本

和利于个人使用和本地部署


在提高推理速度方面

DeepSeek-V3采用的是

多token预测(MTP)的方法

传统模型每次只能生成1个token

而MTP通过轻量级子模型并行

预测多个候选token

验证后选择最优结果。

实验效果显示

生成速度提升1.8倍


OpenAI联合创始人

Andrej Karpathy此前赞叹

“DeepSeek-V3的出现

实现了高性能与低成本的平衡

未来或许不需要

超大规模的GPU集群了”


六大关键探索未来AI基础设施


下一代AI基础设施

将如何升级?

DeepSeek从硬件架构的角度

提出六大方向

涉及内存、互连、网络、

计算等核心领域


梁文锋署名,DeepSeek再发论文 - 天天要闻

图源:虎嗅


整体来看,包括

“鲁棒性优先:

构建不易崩溃的训练系统”

“颠覆互连架构:

CPU-GPU直连消除节点瓶颈”

“智能网络升级:

动态路由实现低延迟”

“通信顺序‘硬件化’:

消除软件额外开销”

“网络计算融合:

硬件加速通信效率”

“内存架构重构:

从‘芯片堆叠’到‘晶圆集成’”


这些专业名词

非行家乍一看有些难懂

有业内人士“翻译”称

就是下一代AI硬件要向

算数快(低精度计算+本地细粒度量化)

传话快(直连网络+智能路由)

记性好(3D内存+近存计算)

不宕机(自愈网络)的方向改进

才能更好地应用于大模型训练

实现高效扩展


梁文锋署名,DeepSeek再发论文 - 天天要闻

图源:网络


DeepSeek表示

这些内存中心的架构创新

旨在打破当前内存发展

滞后于模型规模扩张的瓶颈

是下一代AI系统持续迈向

“更大、更快、更稳”的关键路径之一

同时这些方案也在DeepSeek-V3

训练与推理实践中均取得了实效

为下一代高性能AI系统

构建了坚实的内存支撑基础

科技分类资讯推荐

从SEO到CRO:搜索优化的时代变革 - 天天要闻

从SEO到CRO:搜索优化的时代变革

在数字营销领域,搜索引擎优化(SEO)曾经是获取流量的黄金法则。我们习惯于在搜索引擎输入关键词,然后结果页面中寻找答案。但随着ChatGPT、DeepSeek等生成式AI的崛起,这个延续了二十多年的搜索模式正在被彻底改写。当AI能够直接生成完整答案时,传统的SEO策略突然变得力不从心——这就是为什么我们需要重新认识AI时代的...
全球可持续交通创新联盟可持续航空燃料专委会成立 - 天天要闻

全球可持续交通创新联盟可持续航空燃料专委会成立

7月1日,全球可持续交通创新联盟的第一个国际性专委会—可持续航空燃料专委会成立。该专委会的成立旨在整合产业链力量,构建“技术创新-产业协同-价值共享”三位一体的生态体系,为中国乃至全球能源绿色转型和航空业低碳未来发展提供“中国方案”。启动仪式上,中国能建联合行业头部企业共同发布《可持续航空燃料(SAF)产...
张勇出局,蒋凡上位:阿里权力大地震 - 天天要闻

张勇出局,蒋凡上位:阿里权力大地震

英雄难过美人关。京东创始人刘强东,曾因“明州事件”一度沉寂,事隔七年之后才真正重回公众视野。当年的天猫总裁蒋凡,亦因一场“桃色风波”消失在镁光灯下,直至近期才锋芒再现。
2025第25周销量最高的30款机型曝光 前三只有一款国产 - 天天要闻

2025第25周销量最高的30款机型曝光 前三只有一款国产

【CNMO科技消息】近日,有数码博主曝光了2025年第25周(6月16日到6月22日)中国智能手机市场上销量最高的30款机型: 第一名,iPhone 16 Pro 第二名,iPhone 16 Pro Max 第三名,OPPO Reno 14 第四名,iPhone 16 第五名,REDMI K80 第六名,小米15 第七名,华为nova 14 第八名,荣耀40
微信朋友圈新变动!网友:终于取消了 - 天天要闻

微信朋友圈新变动!网友:终于取消了

今天下午话题词#微信可以不接收共同好友点赞提醒了#冲上热搜第一近日微信朋友圈灰度上线“不接收共同好友点赞提醒”的功能开启后共同好友对你互动过的朋友圈进行点赞或评论时系统不再推送红点提醒但仍可在消息列表中查看也就是共友互动时就不再通知了开启路径:将微信更新至最新版本后,进入【我】—【朋友圈】—【我的朋友...
从聊天机器人到协作伙伴:AI智能体如何重塑企业工作 - 天天要闻

从聊天机器人到协作伙伴:AI智能体如何重塑企业工作

Scott White至今仍对人工智能从新奇技术转变为真正工作伙伴的速度感到惊叹。仅仅一年多前,这位Anthropic公司Claude AI产品负责人目睹了早期AI编程工具甚至无法完成一行代码的窘境。如今,尽管并非专业程序员,他却能亲自构建
小米 16 系列迎最新爆料,Pro 系列镜头模组大改,横向延伸全尺寸设计 - 天天要闻

小米 16 系列迎最新爆料,Pro 系列镜头模组大改,横向延伸全尺寸设计

近日,包括数码闲聊站在内等多个消息源,就下一代旗舰新机纷纷进行了最新爆料,其中小米 16 系列也在近日迎来了最新消息。根据最新爆料来看,小米 16 系列将会在以往的标准版、Pro 版、Ultra 的基础上新增一款 Pro Max 型号。但一一对应来看,新款的小米 16 Pro 即对标标准版 , 为大家熟悉的 6.3 英寸小尺寸旗舰机型。而 1...
魅族 22 系列手机本月到来,提供全新开模小尺寸旗舰版本 - 天天要闻

魅族 22 系列手机本月到来,提供全新开模小尺寸旗舰版本

伴随着时间来到 7 月,各大手机厂商的新机更新计划有所放缓,不过根据多方爆料来看,“小厂代表” 星纪魅族旗下的魅族 22 系列将会在本月与大家见面。目前魅族 22 系列仍然十分 “神秘”,欠缺主要的配置爆料与外观图片作为参考。但根据部分什么爆料者的消息来看,魅族 22 系列将会全新开模,并提供小尺寸旗舰版本可供选择...
vivo X300 Pro 更多细节曝光,大 R 角直面屏,新款大底主摄方案加持 - 天天要闻

vivo X300 Pro 更多细节曝光,大 R 角直面屏,新款大底主摄方案加持

今天数码博主数码闲聊站在与网友互动中,透露了一款搭载联发科天玑 9500 的 “大杯” 工程机的最新进展。参考爆料内容与评论区互动来看,预计为 vivo X300 Pro。除搭载联发科天玑 9500 外,据悉该机一大变化之处在于屏幕部分,根据最新消息来看将会搭载一块大 R 角直屏,不再采用曲面屏或微曲面屏设计。而这也将成为下一代...