春节期间,deepseek新一代开源模型以惊人的低成本和高性能引发热议,在全球投资界引发剧震。
市场上甚至出现了deepseek"仅用500万美元就复制openai"的说法,认为这将给整个ai基础设施产业带来“末日”。
对此,华尔街知名投行伯恩斯坦在详细研究deepseek技术文档后发布报告称,这种市场恐慌情绪明显过度,deepseek用“500万美元复制openai”是市场误读。
另外,该行认为,虽然deepseek的效率提升显著,但从技术角度看,并非奇迹。而且,即便deepseek确实实现了10倍的效率提升,这也仅相当于当前ai模型每年的成本增长幅度。
该行还表示,目前ai计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收,因此对ai板块保持乐观。
“500万美元复制openai”是误读
对于“500万美元复制openai”的说法,伯恩斯坦认为,实际上是对deepseek v3模型训练成本的片面解读,简单将gpu租用成本计算等同于了总投入:
这500万美元仅仅是基于每gpu小时2美元的租赁价格估算的v3模型训练成本,并未包括前期研发投入、数据成本以及其他相关费用。
技术创新:效率大幅提升但非颠覆性突破
接着,伯恩斯坦在报告中详细分析了deepseek发布的两大模型v3、r1详细技术特点。
(1)v3模型的效率革命
该行表示,v3模型采用专家混合架构,用2048块nvidia h800 gpu、约270万gpu小时就达到了可与主流大模型媲美的性能。
具体而言,v3模型采用了混合专家(moe)架构,这一架构本身就旨在降低训练和运行成本。在此基础上,v3还结合了多头潜在注意力(mhla)技术,显著降低了缓存大小和内存使用。
同时,fp8混合精度训练的运用进一步优化了性能表现。这些技术的综合运用,使得v3模型在训练时仅需同等规模开源模型约9%的算力,便能达到甚至超越其性能。
例如,v3预训练仅需约270万gpu小时,而同样规模的开源llama模型则需要约3000万gpu小时。
- moe架构: 每次只激活部分参数,减少计算量。
- mhla技术: 降低内存占用,提升效率。
- fp8混合精度训练: 在保证性能的同时,进一步提升计算效率。
谈及v3模型带来的效率提升,伯恩斯坦认为,与业界3-7倍的常见效率提升相比并非颠覆性突破:
moe架构的重点是显著降低训练和运行的成本,因为在任何一次只有一部分参数集是活动的(例如,当训练v3时,只有671b个参数中的37b为任何一个令牌更新,而密集模型中所有参数都被更新)。
对其他moe比较的调查表明,典型的效率是3-7倍,而类似大小的密度模型具有类似的性能;
v3看起来甚至比这个更好(10倍以上),可能考虑到该公司在模型中带来的其他一些创新,但认为这是完全革命性的想法似乎有点夸张,并且不值得在过去几天里席卷twitter世界的歇斯底里。
(2)r1模型的推理能力与“蒸馏”策略
deepseek的r1模型则在v3的基础上,通过强化学习(rl)等创新技术,显著提升了推理能力,使其能够与openai的o1模型相媲美。
值得一提的是,deepseek还采用了“模型蒸馏”策略,利用r1模型作为“教师”,生成数据来微调更小的模型,这些小模型在性能上可以与openai的o1-mini等竞争模型相媲美。这种策略不仅降低了成本,也为ai技术的普及提供了新的思路。
- 强化学习(rl): 提升模型推理能力。
- 模型蒸馏: 利用大模型训练小模型,降低成本。
对ai板块保持乐观
伯恩斯坦认为,即便deepseek确实实现了10倍的效率提升,这也仅相当于当前ai模型每年的成本增长幅度。
事实上,在“模型规模定律”不断推动成本上升的背景下,像moe、模型蒸馏、混合精度计算等创新对ai发展至关重要。
根据杰文斯悖论,效率提升通常会带来更大的需求,而非削减开支。该行认为,目前ai计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收。
基于以上分析,伯恩斯坦对ai板块保持乐观。
本文来自华尔街见闻,欢迎下载app查看更多