DeepSeek刷屏，超越ChatGPT！

2025年01月27日09:30:12 游戏 8371

每经编辑：毕陆名

1月27日，deepseek应用登顶苹果美国地区应用商店免费app下载排行榜，在美区下载榜上超越了chatgpt。同日，苹果中国区应用商店免费榜显示，deepseek成为中国区第一。

据广州日报报道，“deepseek爆火的原因主要可以归结为两点：性能和成本。”萨摩耶云科技集团首席经济学家郑磊告诉记者。deepseek解释称，r1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。这种卓越的性能不仅吸引了科技界的广泛关注，也让投资界看到了其巨大的商业潜力。

更为关注的是，deepseek r1真正与众不同之处在于它的成本——或者说成本很低。deepseek的r1的预训练费用只有557.6万美元，仅是openai gpt-4o模型训练成本的不到十分之一。同时，deepseek公布了api的定价，每百万输入tokens 1元（缓存命中）/4元（缓存未命中），每百万输出tokens 16元。这个收费大约是openai o1运行成本的三十分之一，也因此，deepseek被称为ai界的“拼多多”。

“deepseek以较低的成本实现了高性能的ai模型，这使得其在市场竞争中具备了显著的优势，这种成本效益比无疑会吸引大量企业和个人用户选择其产品和服务。”北京社科院副研究员王鹏表示。

郑磊直言，deepseek对硬件市场产生了重大影响，因为它可能会降低人工智能模型的硬件成本，从而推动人工智能技术的发展。

另据媒体报道，为了训练模型，幻方量化在美国芯片出口限制之前获得了超过1万块英伟达gpu，尽管有说法称deepseek大约有5万颗h100芯片，但尚未得到公司官方证实。

早在去年12月，该公司推出的deepseek-v3通过优化模型架构和基础设施等方式，展现了极致性价比。从该团队正式发布的技术报告来看，包括预训练、上下文长度外推和后训练在内，deepseek-v3完整训练只需2.788m h800 gpu小时，其训练成本仅为557万美元，但该模型实现了与gpt-4o和claude sonnet 3.5（来自美国人工智能企业anthropic）等顶尖模型相媲美的性能。

当时著名人工智能科学家卡帕西（andrej karpathy）就发文表示，这种级别的能力通常需要接近16000颗gpu的集群，而目前市场上的集群规模更是达到了10万颗gpu左右。

图片来源：视觉中国

尽管尚不清楚最新发布的deepseek-r1的训练成本，但其在服务价格上，相较性能相当的openai的o1也有明显优势。deepseek-r1的api服务定价为每百万输入tokens 1元（缓存命中）/4元（缓存未命中），分别是openai o1的2%和3.6%。

除了极致性价比，让deepseek的大模型脱颖而出的是其代码和训练方法的完全开源。

目前，deepseek-r1已经一跃成为开源社区hugging face上下载量最高的大模型，下载量达10.9万次，这意味着全球的开发人员正在试图了解这一模型以辅助他们自己的ai开发。deepseek的服务器也于26日出现了局部服务波动。这一问题在数分钟内得到解决，或与新模型发布后的访问量激增有关。

deepseek创始人梁文锋在接受媒体采访时也表示：“在颠覆性的技术面前，闭源形成的护城河是短暂的。即使openai闭源，也无法阻止被别人赶超。”

梁文锋认为：“开源更像一个文化行为，而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。”meta首席人工智能科学家杨立昆（yann lecun）也在社交媒体表示，deepseek成功的最大收获不是来自中国竞争对手的加剧威胁，而是保持人工智能模型开源的价值，以便任何人都能受益。

“他们有了新的想法，并在其他人的工作基础上加以实现。由于他们的工作成果已发表并开源，因此每个人都可以从中受益。”杨立昆表示，“这就是开放研究和开源的力量。”

deepseek成立于2023年5月，其背后是国内对冲基金巨头幻方量化。

2023年11月2日，deeseek推出首个模型deepseek coder，该模型免费供商业使用且完全开源。2023年11月29日，deepseek llm上线，其参数规模达到67b，性能接近gpt-4，同时还发布了该模型的聊天版本deepseek chat。

真正让deepseek在ai界出圈的，是其在2024年5月开源的第二代moe大模型deepseek-v2。该模型在性能上比肩gpt-4 turbo，价格却只有gpt-4的百分之一，deepseek由此被称作“价格屠夫”、“ai界的拼多多”。

随后的2024年下半年，这家公司还先后发布了deepseek r1-lite-preview和deepseek-v3。

到了2025年推出的r1模型，在数学能力测试中，该模型在math基准测试上达到了77.5%的准确率，与openai的o1不相上下；在编程领域，r1在codeforces评测中达到了2441分的水平，高于96.3%的人类参与者。

而这一切，是在不到600万美元的投入和2048块低性能的h800芯片的条件下完成的，训练时间仅用两个月。这种“四两拨千斤”的模式，颠覆了人们对openai“大力出奇迹”式的固有认知，结果令全球侧目。

幻方量化和deepseek创始人梁文锋，毕业于浙江大学信息与通信工程专业。业内口碑称，这是一位极致的80后技术理想主义者。创立幻方，梁文锋就在幕后潜心钻研技术，在deepseek时代，其依旧延续着低调作风，和一线研究员一样，每天“看论文，写代码，参与小组讨论”。

据证券时报报道，一名人工智能行业资深业内人士向记者分析称，deepseek以200人左右的小团队，且不依靠外部融资，做出了一个有性价比并被全球主流ai界人士所认可的大模型。“一是他们在早期就买了很多算力卡，投入了很多资源做研究；二是他们是做量化的，不像大厂有其他各种各样的盈利需求，也跟他们不构成竞争关系，能更专注于模型开发。”该业内人士表示。

每日经济新闻综合广州日报、第一财经、证券时报

每日经济新闻