华尔街深度研究：DeepSeek是AI末日吗？

2025年01月29日20:10:43 科学 6238

春节期间，deepseek新一代开源模型以惊人的低成本和高性能引发热议，在全球投资界引发剧震。

市场上甚至出现了deepseek"仅用500万美元就复制openai"的说法，认为这将给整个ai基础设施产业带来“末日”。

对此，华尔街知名投行伯恩斯坦在详细研究deepseek技术文档后发布报告称，这种市场恐慌情绪明显过度，deepseek用“500万美元复制openai”是市场误读。

另外，该行认为，虽然deepseek的效率提升显著，但从技术角度看，并非奇迹。而且，即便deepseek确实实现了10倍的效率提升，这也仅相当于当前ai模型每年的成本增长幅度。

该行还表示，目前ai计算需求远未触及天花板，新增算力很可能会被不断增长的使用需求吸收，因此对ai板块保持乐观。

“500万美元复制openai”是误读

对于“500万美元复制openai”的说法，伯恩斯坦认为，实际上是对deepseek v3模型训练成本的片面解读，简单将gpu租用成本计算等同于了总投入：

这500万美元仅仅是基于每gpu小时2美元的租赁价格估算的v3模型训练成本，并未包括前期研发投入、数据成本以及其他相关费用。

技术创新：效率大幅提升但非颠覆性突破

接着，伯恩斯坦在报告中详细分析了deepseek发布的两大模型v3、r1详细技术特点。

（1）v3模型的效率革命

该行表示，v3模型采用专家混合架构，用2048块nvidia h800 gpu、约270万gpu小时就达到了可与主流大模型媲美的性能。

具体而言，v3模型采用了混合专家（moe）架构，这一架构本身就旨在降低训练和运行成本。在此基础上，v3还结合了多头潜在注意力（mhla）技术，显著降低了缓存大小和内存使用。

同时，fp8混合精度训练的运用进一步优化了性能表现。这些技术的综合运用，使得v3模型在训练时仅需同等规模开源模型约9%的算力，便能达到甚至超越其性能。

例如，v3预训练仅需约270万gpu小时，而同样规模的开源llama模型则需要约3000万gpu小时。

moe架构: 每次只激活部分参数，减少计算量。
mhla技术: 降低内存占用，提升效率。
fp8混合精度训练: 在保证性能的同时，进一步提升计算效率。

谈及v3模型带来的效率提升，伯恩斯坦认为，与业界3-7倍的常见效率提升相比并非颠覆性突破：

moe架构的重点是显著降低训练和运行的成本，因为在任何一次只有一部分参数集是活动的（例如，当训练v3时，只有671b个参数中的37b为任何一个令牌更新，而密集模型中所有参数都被更新）。

对其他moe比较的调查表明，典型的效率是3-7倍，而类似大小的密度模型具有类似的性能；

v3看起来甚至比这个更好（10倍以上），可能考虑到该公司在模型中带来的其他一些创新，但认为这是完全革命性的想法似乎有点夸张，并且不值得在过去几天里席卷twitter世界的歇斯底里。

（2）r1模型的推理能力与“蒸馏”策略

deepseek的r1模型则在v3的基础上，通过强化学习（rl）等创新技术，显著提升了推理能力，使其能够与openai的o1模型相媲美。

值得一提的是，deepseek还采用了“模型蒸馏”策略，利用r1模型作为“教师”，生成数据来微调更小的模型，这些小模型在性能上可以与openai的o1-mini等竞争模型相媲美。这种策略不仅降低了成本，也为ai技术的普及提供了新的思路。

强化学习（rl）： 提升模型推理能力。
模型蒸馏: 利用大模型训练小模型，降低成本。

对ai板块保持乐观

伯恩斯坦认为，即便deepseek确实实现了10倍的效率提升，这也仅相当于当前ai模型每年的成本增长幅度。

事实上，在“模型规模定律”不断推动成本上升的背景下，像moe、模型蒸馏、混合精度计算等创新对ai发展至关重要。

根据杰文斯悖论，效率提升通常会带来更大的需求，而非削减开支。该行认为，目前ai计算需求远未触及天花板，新增算力很可能会被不断增长的使用需求吸收。

基于以上分析，伯恩斯坦对ai板块保持乐观。

本文来自华尔街见闻，欢迎下载app查看更多

科学

当火星梦照不亮地球的阴霾——对马斯克火星殖民计划的深度反思

黑色头像背后的绝望最近，埃隆·马斯克将自己的社交媒体头像换成了一个黑色的地球，周围是暗无天日的空间。这个看似简单的图像变化，却透露出一种令人不安的信号——连这位科技界最具远见的梦想家，似乎也开始对地球的未来感到绝望。这种绝望并非无中生有。

06月08日 1041

北大“韦神”心身状态引争议：搞科研，就应该不修边幅不食人间烟火？

前两天，韦东奕在某短视频平台开了一个认证账号，他本人出镜讲了3句话： “大家好，我叫韦东奕，这是我的账号。” 这段只有4秒钟的视频，不到24小时就让韦东奕账号的粉丝破百万。 ....

06月08日 8825

詹姆斯·韦伯望远镜发布迄今最大宇宙地图，跨越130亿年

新的 COSMOS-Web 地图的一小部分显示了来自宇宙各地的数千个星系。科学家公布了有史以来最庞大的宇宙地图，涵盖近80万个星系，横跨一小片天空和近130亿年的宇宙历史。部分星系极为遥....

06月07日 1620

世界海洋日｜海洋生态综合实习原来这么有意思！大中小学生共享生态学教育成果

“原来我们吃的海藻长这样啊，像绿色波浪的小裙子！”6月6日，在上海海洋大学海洋生态综合实习成果展区，临港明珠小学三年级学生赵一诺看着大学生展示的海藻标本，不禁发出了这样的感叹。她拿出记录本，在上面歪歪扭扭画出了海藻的图案，旁边还标注着大哥哥教的专业名词——“裙带菜、孔石莼”。6月6日，临港新片区的小学生...

06月07日 6804