华尔街深度研究:DeepSeek是AI末日吗?

2025年01月29日20:10:43 科学 6238

春节期间,deepseek新一代开源模型以惊人的低成本和高性能引发热议,在全球投资界引发剧震。

市场上甚至出现了deepseek"仅用500万美元就复制openai"的说法,认为这将给整个ai基础设施产业带来“末日”。

对此,华尔街知名投行伯恩斯坦在详细研究deepseek技术文档后发布报告称,这种市场恐慌情绪明显过度,deepseek用“500万美元复制openai”是市场误读。

另外,该行认为,虽然deepseek的效率提升显著,但从技术角度看,并非奇迹。而且,即便deepseek确实实现了10倍的效率提升,这也仅相当于当前ai模型每年的成本增长幅度。

该行还表示,目前ai计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收,因此对ai板块保持乐观。

“500万美元复制openai”是误读

对于“500万美元复制openai”的说法,伯恩斯坦认为,实际上是对deepseek v3模型训练成本的片面解读,简单将gpu租用成本计算等同于了总投入:

这500万美元仅仅是基于每gpu小时2美元的租赁价格估算的v3模型训练成本,并未包括前期研发投入、数据成本以及其他相关费用

技术创新:效率大幅提升但非颠覆性突破

接着,伯恩斯坦在报告中详细分析了deepseek发布的两大模型v3、r1详细技术特点。

(1)v3模型的效率革命

该行表示,v3模型采用专家混合架构,用2048块nvidia h800 gpu、约270万gpu小时就达到了可与主流大模型媲美的性能。

具体而言,v3模型采用了混合专家(moe)架构,这一架构本身就旨在降低训练和运行成本。在此基础上,v3还结合了多头潜在注意力(mhla)技术,显著降低了缓存大小和内存使用。

同时,fp8混合精度训练的运用进一步优化了性能表现。这些技术的综合运用,使得v3模型在训练时仅需同等规模开源模型约9%的算力,便能达到甚至超越其性能。

例如,v3预训练仅需约270万gpu小时,而同样规模的开源llama模型则需要约3000万gpu小时。

  • moe架构: 每次只激活部分参数,减少计算量。
  • mhla技术: 降低内存占用,提升效率。
  • fp8混合精度训练: 在保证性能的同时,进一步提升计算效率。

华尔街深度研究:DeepSeek是AI末日吗? - 天天要闻

谈及v3模型带来的效率提升,伯恩斯坦认为,与业界3-7倍的常见效率提升相比并非颠覆性突破:

moe架构的重点是显著降低训练和运行的成本,因为在任何一次只有一部分参数集是活动的(例如,当训练v3时,只有671b个参数中的37b为任何一个令牌更新,而密集模型中所有参数都被更新)。

对其他moe比较的调查表明,典型的效率是3-7倍,而类似大小的密度模型具有类似的性能;

v3看起来甚至比这个更好(10倍以上),可能考虑到该公司在模型中带来的其他一些创新,但认为这是完全革命性的想法似乎有点夸张,并且不值得在过去几天里席卷twitter世界的歇斯底里。

(2)r1模型的推理能力与“蒸馏”策略

deepseek的r1模型则在v3的基础上,通过强化学习(rl)等创新技术,显著提升了推理能力,使其能够与openai的o1模型相媲美。

华尔街深度研究:DeepSeek是AI末日吗? - 天天要闻

值得一提的是,deepseek还采用了“模型蒸馏”策略,利用r1模型作为“教师”,生成数据来微调更小的模型,这些小模型在性能上可以与openai的o1-mini等竞争模型相媲美。这种策略不仅降低了成本,也为ai技术的普及提供了新的思路。

  • 强化学习(rl): 提升模型推理能力。
  • 模型蒸馏: 利用大模型训练小模型,降低成本。

对ai板块保持乐观

伯恩斯坦认为,即便deepseek确实实现了10倍的效率提升,这也仅相当于当前ai模型每年的成本增长幅度。

事实上,在“模型规模定律”不断推动成本上升的背景下,像moe、模型蒸馏、混合精度计算等创新对ai发展至关重要。

根据杰文斯悖论,效率提升通常会带来更大的需求,而非削减开支。该行认为,目前ai计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收。

基于以上分析,伯恩斯坦对ai板块保持乐观。

本文来自华尔街见闻,欢迎下载app查看更多

科学分类资讯推荐

我国航空轮胎关键材料与技术领域取得重大突破,改变行业历史 - 天天要闻

我国航空轮胎关键材料与技术领域取得重大突破,改变行业历史

IT之家 5 月 14 日消息,由中国科学院长春应用化学研究所研制的仿生合成橡胶航空轮胎,于 2025 年 5 月 12 日在某试飞基地成功完成装机飞行验证,标志着我国在航空轮胎关键材料与技术领域取得重大突破。此次完成飞行验证的航空轮胎是为某大型固定翼无人机专门研制,该轮胎全部采用仿生合成橡胶材料,改变了航空轮胎只能使用...
地理冷知识——尼日尔 - 天天要闻

地理冷知识——尼日尔

尼日尔共和国(The Republic of Niger,La République du Niger)位于非洲中西部,简称尼日尔,是撒哈拉沙漠南缘的内陆国,该国北与阿尔及利亚和利比亚接壤,南同尼日利亚和贝宁交界,西与马里和布基纳法索毗连,
磨损磨耗测试仪分类 - 天天要闻

磨损磨耗测试仪分类

磨损磨耗测试仪的分类可基于摩擦形式、测试标准及功能特性进行系统划分,具体如下:‌一、按摩擦形式分类‌滚动摩擦测试仪‌阿克隆磨耗试验机‌原理:试样与砂轮以倾斜角度(0°~45°)及恒定负荷(如26.7N1)滚动摩擦,模拟轮胎等滚动工况。
生命警示:高原反应处理不当酿成不可逆后果 - 天天要闻

生命警示:高原反应处理不当酿成不可逆后果

5月10日,一名男性游客在四川四姑娘山旅游时,疑因高原反应送往医院抢救无效后,遗憾离世。此事迅速引发网络关注。按照男子朋友的说法,来到四姑娘山镇的第一天,他就感觉身体不适。同行人员特意为他打了一辆顺风车,准备把他送往成都接受治疗。接单的司机表示,头天晚上接到单子,次日早上八点多,该男子和一位女士一同上...
【高清组图】云南元江河谷的“精灵舞者”——栗喉蜂虎 - 天天要闻

【高清组图】云南元江河谷的“精灵舞者”——栗喉蜂虎

在骄阳似火的元江河谷,生活着一群美丽的“精灵舞者”。它们在元江两岸的沙壁上打洞筑巢、繁育后代,它们有一个雅致的名字——栗喉蜂虎。栗喉蜂虎是一种迁徙候鸟,属国家二级保护动物,因其羽毛色彩绚丽、飞行姿态优美,被誉为“中国最美小鸟”。
全球首例:我国量子密码技术实现双重加密里程碑 - 天天要闻

全球首例:我国量子密码技术实现双重加密里程碑

IT之家 5 月 14 日消息,综合科技日报、经济参考网消息,中电信量子集团近日发布了全球首个融合量子密钥分发(QKD)和后量子加密算法(PQC)的分布式密码体系。该体系创新融合 QKD 和 PQC 技术,可提供端到端抗量子计算的密钥分发与
2025年梅雨时间表来了,“入梅”要提前?提醒大家4件事早做准备 - 天天要闻

2025年梅雨时间表来了,“入梅”要提前?提醒大家4件事早做准备

“三秋梅雨愁枫叶,一夜篷舟宿苇花”,每年6月中旬至7月上旬,我国长江中下游以及江淮流域,将迎来连绵数日的降雨,而且雨量集中且强度大,此时正值江南梅子成熟季节,因此民间把这段降雨时期称之为“梅雨”,也叫“黄梅雨”,又因高温高湿的特点,很容易导
新华社权威快报丨将人工智能送上太空!我国太空计算卫星星座成功发射 - 天天要闻

新华社权威快报丨将人工智能送上太空!我国太空计算卫星星座成功发射

记者5月14日从浙江省新型研发机构之江实验室了解到,随着太空计算卫星星座14日在酒泉卫星发射中心成功发射,我国整轨互联太空计算星座“三体计算星座”正式进入组网阶段。中国工程院院士、之江实验室主任王坚介绍,“三体计算星座”是由之江实验室协同全球合作伙伴共同打造的千星规模的太空计算基础设施。该设施将通过在轨...
@婺城人,发现古生代海洋生物化石! - 天天要闻

@婺城人,发现古生代海洋生物化石!

金华山风光秀丽,岩溶地质景观丰富。近日,专家经过调查,发现金华山上还有丰富的古生代海洋生物化石。罗店镇鹿田村公路旁,竖立着一块“腕足类化石点”的牌子,在这附近山体上,地质专家发现了古生代海洋生物化石。腕足动物是一类古老的海洋无脊椎动物,它们在古生代海洋中非常繁盛。“这套地层主要是二叠纪早期,距今2.8...