梁文锋和杨植麟再“撞车”

2025年05月05日00:00:17 动漫 5900

梁文锋和杨植麟再“撞车” - 天天要闻

被追赶和超越,是创业者常面对的挑战。

|《中国企业家》记者 闫俊文

编辑|张晓迪

图片来源|视觉中国

继2月论文“撞车”之后,梁文锋和杨植麟又在另一个大模型赛道上相遇了。

4月30日,deepseek上线新模型deepseek-prover-v2,这是一个数学定理证明专用模型。

prover-v2的参数规模进一步扩展到671b(6710亿规模参数),相较于前一代v1.5版本的7b规模增加了近百倍,这让其在数学测试集上的效率和正确率更高,比如,该模型的minif2f测试通过率达到88.9%,它还解决了putnambench(普特南测试)的49道题。

巧合的是,4月中旬,月之暗面也曾推出一款用于形式化定理证明的大模型kimina-prover,这是kimi团队和numina共同研发的大模型,该产品也开源了1.5b和7b参数的模型蒸馏版本。该模型的minif2f测试通过率为80.7%,putnambench测试成绩为10道题。

两者相比较,在minif2f测试通过率以及普特南测试上,deepseek-prover-v2的表现超过了kimina-prover预览版。

值得注意的是,两家公司在技术报告中都提到了强化学习。比如deepseek的题目为《deepseek-prover-v2:通过子目标分解的强化学习推进形式数学推理》,而月之暗面的题目为《kimina-prover preview:基于强化学习技术的大型形式推理模型》。

在2月的两篇“撞车”论文中,梁文锋和杨植麟都在作者行列,两家公司都关注transformer架构最核心的注意力机制,即如何让模型更好地处理长上下文。

作为中国大模型领域最受瞩目的创业者,两人也正在面临不同的挑战。

对于梁文锋而言,在r1模型推出三个多月后,外界对deepseek“魔法”的痴迷程度正在下降,阿里巴巴的开源模型正在迅速赶上以及超过deepseek,外界热切期待其发布r2或v4模型,以加强领先优势。

对于杨植麟和月之暗面,kimi正在遭受来自字节跳动的豆包和腾讯元宝的挑战,它也需要保持持续创新。

编程与数学,实现agi的两条路径

对于agi的实现路径,2024年,deepseek创始人梁文锋在接受《暗涌》采访时曾说,他们确实押注了三个方向:一是数学和代码、二是多模态、三是自然语言本身。数学和代码是agi天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。另一方面,多模态需要参与到人类真实世界里学习。他们对一切可能性都保持开放。

此次prover-v2模型的推出,让deepseek的各个模型矩阵保持了同步进化。

prover系列模型于2024年3月开始被发布,2024年8月被更新为deepseek-prover-v1.5(后简称为prover-v1.5),2025年4月再被更新至deepseek-prover-v2。

deepseek代码系列模型coder从2024年4月开始更新,6月升级为coder-v2-0614,7月再次升级,9月,deepseek-v2-chat和deepseek-coder-v2合并,升级后的新模型为deepseek-v2.5,2024年12月,该模型更新至v3,今年3月,升级至v3-0324。

梁文锋和杨植麟再“撞车” - 天天要闻

通用推理大模型,以1月20日发布的r1模型为代表,价格低廉,自然语言推理性能强劲,在数学、代码、自然语言推理等任务上,性能比肩openai o1正式版。

从prover-v2的技术报告上看,其与deepseek的其他模型进化有关联,其中,deepseek-prover-v2-671b是以deepseek-v3作为基础模型来做微调,如在冷启动阶段,deepseek-v3将复杂问题分解为一系列子目标,而后,已解决子目标的证明被合成到一个思维过程链中,结合deepseek-v3的逐步推理,为强化学习创建一个初始冷启动。

算法工程师、知乎用户“小小将”告诉《中国企业家》,推理模型在进行推理时,要进行复杂的思考,代码与数学模型可以检验推理大模型能力进展,因为数学与代码的结果是可验证的。

他认为,prover-v2的推出与新模型r2或v4的上线没有必然联系,它更像是一个独立模型的更新。

他预测,r2模型更像是gpt-o1到o3的过程,比如在提高强化学习的能力方面,deepseek可以基于v3,提升后训练效果,因此r2的研发周期可能会比较短。但v4就是一个大版本的更新,其研发周期有可能更长,因为预训练的工程量以及训练方法可能都会发生变化。

目前市场已经对deepseek的新模型充满了想象和期待。

市场上传言,r2模型将基于华为升腾系列gpu芯片而推出,但一位行业人士说,这个消息不太可靠,在英伟达h20芯片被限之后,升腾系列芯片在市场上也是一卡难求,“对于升腾来说,如果用于大模型研发,可能鲁棒性没那么强”。

另有创业公司相关人士告诉《中国企业家》,华为升腾芯片用于大模型的训练,效果一般,原因在于生态系统没那么完善,但用于大模型的推理与部署,是没有问题的。

deepseek与kimi还能保持领先吗?

deepseek与月之暗面作为明星初创公司,正在遭受大公司的追赶和超越。

以月之暗面旗下的kimi为例,据questmobile数据,kimi上线不足1年,在2024年11月,月活突破2000万,仅次于豆包的5600万。

questmobile数据显示,截至2025年2月底,ai原生app月活规模前三名从豆包、kimi、文小言更迭为deepseek、豆包、腾讯元宝,规模分别是1.94亿、1.16亿、0.42亿。

2月中旬,腾讯元宝宣布接入deepseek,随后,在一个多月时间内,腾讯元宝利用超级产品微信引流加上疯狂买量投流,在用户数量上已经超过了kimi,成为排名第三的ai产品。据appgrowing数据,在今年一季度,腾讯元宝的投流费用为14亿元,远远超过kimi的1.5亿元规模。

梁文锋和杨植麟再“撞车” - 天天要闻

目前,kimi最新的举动是内测社区功能,增加用户粘性。

deepseek同样也避免不了被大公司追赶甚至超越的挑战。近期,阿里巴巴在大模型方面展现出了强劲的竞争力。

4月29日,阿里巴巴发布新一代通义千问模型qwen3,该模型被称作首个“混合推理模型”,是“快思考”和“慢思考”集成的一个模型,参数量仅为deepseek-r1的1/3,性能全面超越r1、openai o1等同行产品。

此前,蔡崇信评价deepseek,它告诉了我们开源的价值。根据公开数据,阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个,已超越美国llama,成为全球第一开源模型。

一位ai创业者告诉《中国企业家》,deepseek受到了过多的关注,被赋予过多光环,中国大模型产业需要两三个世界领先的大模型,而不是一个,这时候应鼓励这个领域的竞争和创业。

另一个重要玩家是百度。4月25日,百度发布文心4.5 turbo和深度思考模型x1 turbo,这两款模型性能更强大,成本更低,李彦宏更是数次提到deepseek,他说,deepseek也不是万能的,它只能处理单一的文本,还不能理解声音、图片、视频等多媒体内容,同时幻觉率比较高,很多场合不能放心使用。

“deepseek最大的问题是慢和贵,中国市场上绝大多数大模型api的价格都更低,而且反应速度更快。”李彦宏在发布会上说。

尽管如此,百度仍决定学习deepseek,今年2月,百度决定在6月30日开源文心大模型4.5系列。

越来越多的玩家参与大模型开源竞赛,但只有技术最先进的玩家才能定义标准。

动漫分类资讯推荐

电锯人漫画202话:藤本树持续发病 再次整出第一部的奇葩操作 - 天天要闻

电锯人漫画202话:藤本树持续发病 再次整出第一部的奇葩操作

电锯人漫画202话正式公开,这一话依旧是藤本树持续发病的一话,其再次整出第一部的奇葩操作,剧情方面也是迎来了不断反转,整体观感还是很有意思的,来具体说说这一话的剧情故事走向。真正恶魔询问电锯人是否生气了,要不要和自己的打一架?说完直接抬手轰碎了一旁的建筑,造成了飞沙走石的大范围迫害的场面。而借助战争恶...
OPPO Reno14系列官宣:将于本月发布 号称Live图神机 - 天天要闻

OPPO Reno14系列官宣:将于本月发布 号称Live图神机

站长之家(ChinaZ.com)5月6日 消息:今日,OPPO正式预告Reno14系列将于本月发布,并将其称为“Live图神机”。OPPO表示,Reno14系列拍摄的Live图能够同时满足真实感、高画质和氛围感三大需求,用户仅凭一台手机就能体验到当下所有的潮流拍摄玩法。此前,OPPO在Reno13系列上就已展现出对Live图技术的探索。该系列搭载了AI高清.
订单火爆的鸿蒙智行,为何公布销量总是磨磨蹭蹭? - 天天要闻

订单火爆的鸿蒙智行,为何公布销量总是磨磨蹭蹭?

华为旗下的鸿蒙智行,其实严格来讲并不算是一家车企,而是由华为加持的汽车技术生态联盟。但是在不少机构统计的销量数据中,往往把鸿蒙智行的销量数据跟理想、小鹏和蔚来这样的造车新势力品牌同等看待。所以在本文....
斗破苍穹:紫妍为何再度闭关?完全吸收龙凰本源果,晋升4星斗圣 - 天天要闻

斗破苍穹:紫妍为何再度闭关?完全吸收龙凰本源果,晋升4星斗圣

《斗破苍穹》年番第147集中,紫妍将会以斗圣之姿出现,从而解决东龙岛危机,让来犯的三大龙岛不敢进一步出手。不过在给了萧炎一丝龙凰之力后,紫妍会再度闭关。这一次会持续数年的时间。那么紫妍为何要这么做?主要是为了完全吸收龙凰本源果,也是为了晋升4星斗圣。紫妍并未完全吸收龙凰本源果在吃下龙凰本源果之前,紫妍只...
非人哉:木咤管教红孩儿,观音给他套上五个金箍 - 天天要闻

非人哉:木咤管教红孩儿,观音给他套上五个金箍

《非人哉》漫画版中,红孩儿被观音收服初期,由木咤管教。不过红孩儿平时野惯了,还是不服从管教。为了方便木咤管教红孩儿,观音给红孩儿套上五个金箍。不过红孩儿也是厉害,哪怕是站着都能睡着。红孩儿在一千多年前,那就是个混世魔王。在观音收服之后,将他交给惠岸使者木咤管教。或许只有木咤这种性格,能够管教红孩儿。...
她又撒了个弥天大谎!特朗普还转发了 - 天天要闻

她又撒了个弥天大谎!特朗普还转发了

近段时间,美国政府对中国等全球多个国家肆意加征关税,不仅严重扰乱了国际贸易,更令许多依赖国际供应链的美国小企业苦不堪言,甚至陷入生存危机。然而,美国政府的一名高官近日却对媒体宣称,白宫的政策正让美国....
科创丨在大模型时代找到方向,思必驰计划重启IPO征程 - 天天要闻

科创丨在大模型时代找到方向,思必驰计划重启IPO征程

·聚焦:人工智能、芯片等行业欢迎各位客官关注、转发前言:思必驰的二次尝试,是本土AI企业面临[技术投入-商业变现]平衡难题的一个缩影。若能凭借[垂域大模型+景闭环]成功登陆科创板,将为垂直领域的人工智能公司提供[技术深耕+生态绑定]的突围范本;若再次失败,则可能反映出高研发投入企业在盈利周期上面临的资本市场信任...
影驰RTX5090D星曜图赏:颜值焕新,超强性能! - 天天要闻

影驰RTX5090D星曜图赏:颜值焕新,超强性能!

全新升级的RTX 50显卡星曜系列可谓给足了玩家惊喜,影驰 GeForce RTX 5090 D 星曜LUNA OC不论是从外观设计、硬件堆料、散热效能还是做工水准来说,都称得上是顶级非公。强悍的性能表现、稳定的温度控制和一眼吸睛的外观颜值,则向我们展示了顶级卡皇的真正实力与影驰对玩家文化的理解与尊重,努力将显卡功能与美学结合。...
芭比娃娃涨价42.9%,美玩具行业遭关税政策“重击” - 天天要闻

芭比娃娃涨价42.9%,美玩具行业遭关税政策“重击”

据美国媒体当地时间5月5日报道,芭比娃娃制造商美国美泰玩具公司表示,受近期美国关税政策影响,计划提高玩具价格。美泰公司5日在收益报告中表示,该公司将“在必要时”提高在美国销售的产品价格,以抵消关税政策导致的成本上升影响。美泰公司称,关税将导致该公司今年损失2.7亿美元。美泰公司首席执行官伊农·克雷兹5日呼...
已想好被罢后的下一步?徐巧芯脱口说了这句话 - 天天要闻

已想好被罢后的下一步?徐巧芯脱口说了这句话

全台“大罢免”如火如荼,罢免国民党民代徐巧芯的团队上月底宣布,第二阶段连署已收到超过3.6万份,突破法定门槛150%。徐巧芯则透露,对于罢免一事她想得很开,更直言罢团若认为罢免就可以破坏蓝营接班计划....