华尔街深度研究:DeepSeek是AI末日吗?

2025年01月29日20:10:43 科学 6238

春节期间,deepseek新一代开源模型以惊人的低成本和高性能引发热议,在全球投资界引发剧震。

市场上甚至出现了deepseek"仅用500万美元就复制openai"的说法,认为这将给整个ai基础设施产业带来“末日”。

对此,华尔街知名投行伯恩斯坦在详细研究deepseek技术文档后发布报告称,这种市场恐慌情绪明显过度,deepseek用“500万美元复制openai”是市场误读。

另外,该行认为,虽然deepseek的效率提升显著,但从技术角度看,并非奇迹。而且,即便deepseek确实实现了10倍的效率提升,这也仅相当于当前ai模型每年的成本增长幅度。

该行还表示,目前ai计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收,因此对ai板块保持乐观。

“500万美元复制openai”是误读

对于“500万美元复制openai”的说法,伯恩斯坦认为,实际上是对deepseek v3模型训练成本的片面解读,简单将gpu租用成本计算等同于了总投入:

这500万美元仅仅是基于每gpu小时2美元的租赁价格估算的v3模型训练成本,并未包括前期研发投入、数据成本以及其他相关费用

技术创新:效率大幅提升但非颠覆性突破

接着,伯恩斯坦在报告中详细分析了deepseek发布的两大模型v3、r1详细技术特点。

(1)v3模型的效率革命

该行表示,v3模型采用专家混合架构,用2048块nvidia h800 gpu、约270万gpu小时就达到了可与主流大模型媲美的性能。

具体而言,v3模型采用了混合专家(moe)架构,这一架构本身就旨在降低训练和运行成本。在此基础上,v3还结合了多头潜在注意力(mhla)技术,显著降低了缓存大小和内存使用。

同时,fp8混合精度训练的运用进一步优化了性能表现。这些技术的综合运用,使得v3模型在训练时仅需同等规模开源模型约9%的算力,便能达到甚至超越其性能。

例如,v3预训练仅需约270万gpu小时,而同样规模的开源llama模型则需要约3000万gpu小时。

  • moe架构: 每次只激活部分参数,减少计算量。
  • mhla技术: 降低内存占用,提升效率。
  • fp8混合精度训练: 在保证性能的同时,进一步提升计算效率。

华尔街深度研究:DeepSeek是AI末日吗? - 天天要闻

谈及v3模型带来的效率提升,伯恩斯坦认为,与业界3-7倍的常见效率提升相比并非颠覆性突破:

moe架构的重点是显著降低训练和运行的成本,因为在任何一次只有一部分参数集是活动的(例如,当训练v3时,只有671b个参数中的37b为任何一个令牌更新,而密集模型中所有参数都被更新)。

对其他moe比较的调查表明,典型的效率是3-7倍,而类似大小的密度模型具有类似的性能;

v3看起来甚至比这个更好(10倍以上),可能考虑到该公司在模型中带来的其他一些创新,但认为这是完全革命性的想法似乎有点夸张,并且不值得在过去几天里席卷twitter世界的歇斯底里。

(2)r1模型的推理能力与“蒸馏”策略

deepseek的r1模型则在v3的基础上,通过强化学习(rl)等创新技术,显著提升了推理能力,使其能够与openai的o1模型相媲美。

华尔街深度研究:DeepSeek是AI末日吗? - 天天要闻

值得一提的是,deepseek还采用了“模型蒸馏”策略,利用r1模型作为“教师”,生成数据来微调更小的模型,这些小模型在性能上可以与openai的o1-mini等竞争模型相媲美。这种策略不仅降低了成本,也为ai技术的普及提供了新的思路。

  • 强化学习(rl): 提升模型推理能力。
  • 模型蒸馏: 利用大模型训练小模型,降低成本。

对ai板块保持乐观

伯恩斯坦认为,即便deepseek确实实现了10倍的效率提升,这也仅相当于当前ai模型每年的成本增长幅度。

事实上,在“模型规模定律”不断推动成本上升的背景下,像moe、模型蒸馏、混合精度计算等创新对ai发展至关重要。

根据杰文斯悖论,效率提升通常会带来更大的需求,而非削减开支。该行认为,目前ai计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收。

基于以上分析,伯恩斯坦对ai板块保持乐观。

本文来自华尔街见闻,欢迎下载app查看更多

科学分类资讯推荐

中国交付全球最大“人造太阳”重要部件 - 天天要闻

中国交付全球最大“人造太阳”重要部件

近日,全球最大“人造太阳”国际热核聚变实验堆(ITER)计划磁体馈线采购包项目迎来关键节点,其最后一套校正场线圈内馈线部件在合肥竣工,并交付起运位于法国的ITER现场。这标志着ITER磁体馈线系统中所有超大部件的研制顺利完成。ITER磁体馈线系统由中国科学院合肥物质科学研究院等离子体物理研究所研制,被称为ITER磁体系...
张振丰调研温州学研究联合会 构建中国学视野下的温州学研究体系 - 天天要闻

张振丰调研温州学研究联合会 构建中国学视野下的温州学研究体系

4月13日,副省长、市委书记张振丰在温州学研究联合会调研时强调,要深入学习贯彻习近平文化思想和习近平总书记考察浙江重要讲话精神,坚持“立足温州、研究温州、服务温州”,深化时间维度、放大空间维度,贯通历史研究温州、跳出温州研究温州,努力打造温州建设高水平文化强市的重要窗口、具有全国影响力的地方学术研究的...
土拨鼠等动植物不得携带入境!关于国门生物安全,你要知道这些 - 天天要闻

土拨鼠等动植物不得携带入境!关于国门生物安全,你要知道这些

极目新闻记者 张秀娟通讯员 赵梦洁 黄晓彧 林敏“小朋友们,外来入侵物种包括哪些呢?”“在咱们出国旅游前,需注意哪些问题呢?”4月12日,在第十个全民国家安全教育日来临之际,武汉海关在武汉天河国际机场开展了一场别开生面的“海关开放日”活动。15名小学生化身“国门小卫士”,零距离体验、参与海关全民国家安全教育...
月球上跳一跳,轻松打破跳高世界纪录!这个展会,解密引力奥秘 - 天天要闻

月球上跳一跳,轻松打破跳高世界纪录!这个展会,解密引力奥秘

顶端新闻记者 杨逍 文 时硕 图如果你向往星辰宇宙,那你是否幻想过在其他星球上跳跃?在本次国防展的“星球重力”互动体验机前,你每次的纵身一跃,都会化身成屏幕中身穿宇航员服的小人,来到月球、金星、火星、火卫二、土卫一等星体上,屏幕的上方记录着你的跳跃高度。在月球,你轻轻一跃就能达到3米高度,轻松打破2.45米...
4月13日石家庄强风显著增强的原因 - 天天要闻

4月13日石家庄强风显著增强的原因

4月13日石家庄强风显著增强的原因,是多重气象条件和地理因素共同作用的结果。根据气象监测和专家分析,此次强风具有以下关键成因:一、极端天气系统的叠加效应1.
神十九乘组“太空出差”倒计时:各项空间科学实(试)验稳步推进 - 天天要闻

神十九乘组“太空出差”倒计时:各项空间科学实(试)验稳步推进

IT之家 4 月 13 日消息,据央视网报道,神舟十九号航天员乘组的“太空出差”之旅即将进入倒计时。上周,神十九乘组稳步推进各项空间科学实(试)验,在开展站内环境监测、设备检查维护等工作同时,积极开展健康维护。神十九乘组利用脑电设备开展了多项实验的测试工作,地面科研人员将利用获取的数据探究重力对视觉运动信息...
感受活力丨机器人正在进化中……这样的“生活搭子”,你喜欢吗? - 天天要闻

感受活力丨机器人正在进化中……这样的“生活搭子”,你喜欢吗?

模仿人类奔跑、跳跃、空翻,像人一样说话、思考甚至察言观色。这不是科幻电影对未来的虚构,而是2025中国机器人产业阔步向前的现实。小时候的你,是不是也曾畅想过:家里有一个机器人,能买菜、做饭、铺床、扫地,帮你干农活,还可以照顾家里老人……时至今日,这些“天马行空”的想象,正在变成现实。“12点了,您该吃药了...