华尔街深度研究:DeepSeek是AI末日吗?

2025年01月29日20:10:43 科学 6238

春节期间,deepseek新一代开源模型以惊人的低成本和高性能引发热议,在全球投资界引发剧震。

市场上甚至出现了deepseek"仅用500万美元就复制openai"的说法,认为这将给整个ai基础设施产业带来“末日”。

对此,华尔街知名投行伯恩斯坦在详细研究deepseek技术文档后发布报告称,这种市场恐慌情绪明显过度,deepseek用“500万美元复制openai”是市场误读。

另外,该行认为,虽然deepseek的效率提升显著,但从技术角度看,并非奇迹。而且,即便deepseek确实实现了10倍的效率提升,这也仅相当于当前ai模型每年的成本增长幅度。

该行还表示,目前ai计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收,因此对ai板块保持乐观。

“500万美元复制openai”是误读

对于“500万美元复制openai”的说法,伯恩斯坦认为,实际上是对deepseek v3模型训练成本的片面解读,简单将gpu租用成本计算等同于了总投入:

这500万美元仅仅是基于每gpu小时2美元的租赁价格估算的v3模型训练成本,并未包括前期研发投入、数据成本以及其他相关费用

技术创新:效率大幅提升但非颠覆性突破

接着,伯恩斯坦在报告中详细分析了deepseek发布的两大模型v3、r1详细技术特点。

(1)v3模型的效率革命

该行表示,v3模型采用专家混合架构,用2048块nvidia h800 gpu、约270万gpu小时就达到了可与主流大模型媲美的性能。

具体而言,v3模型采用了混合专家(moe)架构,这一架构本身就旨在降低训练和运行成本。在此基础上,v3还结合了多头潜在注意力(mhla)技术,显著降低了缓存大小和内存使用。

同时,fp8混合精度训练的运用进一步优化了性能表现。这些技术的综合运用,使得v3模型在训练时仅需同等规模开源模型约9%的算力,便能达到甚至超越其性能。

例如,v3预训练仅需约270万gpu小时,而同样规模的开源llama模型则需要约3000万gpu小时。

  • moe架构: 每次只激活部分参数,减少计算量。
  • mhla技术: 降低内存占用,提升效率。
  • fp8混合精度训练: 在保证性能的同时,进一步提升计算效率。

华尔街深度研究:DeepSeek是AI末日吗? - 天天要闻

谈及v3模型带来的效率提升,伯恩斯坦认为,与业界3-7倍的常见效率提升相比并非颠覆性突破:

moe架构的重点是显著降低训练和运行的成本,因为在任何一次只有一部分参数集是活动的(例如,当训练v3时,只有671b个参数中的37b为任何一个令牌更新,而密集模型中所有参数都被更新)。

对其他moe比较的调查表明,典型的效率是3-7倍,而类似大小的密度模型具有类似的性能;

v3看起来甚至比这个更好(10倍以上),可能考虑到该公司在模型中带来的其他一些创新,但认为这是完全革命性的想法似乎有点夸张,并且不值得在过去几天里席卷twitter世界的歇斯底里。

(2)r1模型的推理能力与“蒸馏”策略

deepseek的r1模型则在v3的基础上,通过强化学习(rl)等创新技术,显著提升了推理能力,使其能够与openai的o1模型相媲美。

华尔街深度研究:DeepSeek是AI末日吗? - 天天要闻

值得一提的是,deepseek还采用了“模型蒸馏”策略,利用r1模型作为“教师”,生成数据来微调更小的模型,这些小模型在性能上可以与openai的o1-mini等竞争模型相媲美。这种策略不仅降低了成本,也为ai技术的普及提供了新的思路。

  • 强化学习(rl): 提升模型推理能力。
  • 模型蒸馏: 利用大模型训练小模型,降低成本。

对ai板块保持乐观

伯恩斯坦认为,即便deepseek确实实现了10倍的效率提升,这也仅相当于当前ai模型每年的成本增长幅度。

事实上,在“模型规模定律”不断推动成本上升的背景下,像moe、模型蒸馏、混合精度计算等创新对ai发展至关重要。

根据杰文斯悖论,效率提升通常会带来更大的需求,而非削减开支。该行认为,目前ai计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收。

基于以上分析,伯恩斯坦对ai板块保持乐观。

本文来自华尔街见闻,欢迎下载app查看更多

科学分类资讯推荐

图解巷道高冒区、复杂空巷充填及上隅角密闭 - 天天要闻

图解巷道高冒区、复杂空巷充填及上隅角密闭

我是通风安全,点击上方“关注”,每天为你分享【一通三防】与【安全管理】干货。一、充填设备及工艺材料施工采用的设备主要有气动隔膜泵、混合器。材料充填工艺如下:按照水灰比(1.
五十万米高空捕捉地表细节 - 天天要闻

五十万米高空捕捉地表细节

长光卫星智慧农业农村综合指挥平台界面。 长光卫星供图李岩在加工反射镜。 本报记者 刘以晴摄“吉林一号”宽幅卫星总装现场。 长光卫星供图“吉林一号”是我国最大的商业遥感卫星星座和全球最大的亚米级商业遥感卫星星座。
我国首款航天大模型 让卫星管理更聪明 - 天天要闻

我国首款航天大模型 让卫星管理更聪明

随着天上的卫星组网越来越多,这些卫星如何更加智能、高效地管理成为行业面临的一个问题。我国首个航天大模型,正在助力卫星管理更聪明。航天大模型“华山”,首次将大语言模型应用在航天领域的产品上,运用AI帮助用户完成航天器智能操控、轨道计算与分析、指令代码生成等航天器在轨管理工作。通过数据学习,它可以快速且智...
大熊猫“荷风”“兰韵”正式亮相奥地利美泉宫动物园 - 天天要闻

大熊猫“荷风”“兰韵”正式亮相奥地利美泉宫动物园

当地时间5月14日,来自中国大熊猫保护研究中心的大熊猫“荷风”和“兰韵”正式亮相奥地利维也纳美泉宫动物园。当天,美泉宫动物园为“荷风”和“兰韵”举行了盛大的欢迎仪式。奥地利总统亚历山大·范德贝伦发表致辞。现场观众热情高涨,众多儿童欢呼雀跃,
资深研究员亲授AI实操秘籍,助力医学研究设计效率翻倍! - 天天要闻

资深研究员亲授AI实操秘籍,助力医学研究设计效率翻倍!

我们都知道医学研究方案设计耗时又耗力?面对复杂的实验逻辑和文献海量信息,如何快速产出高质量方案呢?我想这一直是大家迫切想要解决问题吧!那今天刷到这篇文章的朋友们有福了,本文结合梅斯医学资深研究员张磊博士直播干货,手把手教你用AI拆解研究目标、优化实验设计,文末还附赠工具试用入口!【研究方案设计的前置知...
我国科学家率先“看见”固体氢的最精细结构 - 天天要闻

我国科学家率先“看见”固体氢的最精细结构

常温常压下,氢以气体状态存在。高压下,氢结晶为固体。而超高压下固体氢的原子排列方式一直是未解之谜。14日,国际权威学术期刊《自然》发表一项重大突破:由中国科学家领衔的国际团队用X射线纳米探针首次“看见”固体氢的复杂晶体结构。这是目前世界上固
早读|“天数天算”,AI迈向太空 - 天天要闻

早读|“天数天算”,AI迈向太空

早上好!上观新闻『早读』来啦!2025年5月15日 星期四 农历四月十八上海多云到阴,下午起局部地区有短时小雨,22~29℃§今日关注“天数天算”,AI迈向太空※ 5月14日12时12分,国星宇航在酒泉卫星发射中心使用长征二号丁运载火箭,成功将太空计算星座021任务12颗卫星发射升空。卫星顺利进入预定轨道,标志着全球首个太空计...
与总书记交流的上海人工智能实验室年轻人,在探索什么前沿领域? - 天天要闻

与总书记交流的上海人工智能实验室年轻人,在探索什么前沿领域?

人工智能是年轻的事业,也是年轻人的事业。4月29日,是上海人工智能实验室青年科研团队终生难忘的一天。他们在“模速空间”参加一场以“下一代智能体的自主进化”为主题的沙龙时,与习近平总书记作了面对面交流。这些年轻人在探索什么前沿领域?他们身处的科研环境如何?记者来到毗邻“模速空间”的上海人工智能实验室,采...