梁文锋带领着deepseek,还在继续搅动大模型行业。
继用r1模型炸场之后,1 月 28 日凌晨,除夕夜前一晚,deepseek 又开源了其多模态模型 janus-pro-7b,宣布在 geneval 和 dpg-bench 基准测试中击败了 dall-e 3(来自 openai)和 stable diffusion。
随后特朗普在会议上提到deepseek的出现为美国的企业敲响了警钟,“我们需要集中精力在竞争中获胜”。相隔一天,据外媒报道,多名美国官员称deepseek是“偷窃”,正对其展开国家安全调查。
openai也适时发布声明称一直知道其他公司试图蒸馏美国领先公司的模型,如今“采取反制措施保护我们的知识产权”,并表示将和美国政府紧密合作保护最先进模型免受窃取。
或许梁文锋自己都想不到,意外火出圈的deepseek,刺痛着更多人的神经。
而一年前,deepseek v2模型发布时,便开始被冠上ai界拼多多的称号。
反卷大厂的梁文锋,早已在ai领域复制过黄峥式“后来居上”的故事,并在国内掀起打到骨折的大模型价格战。
当时,在接受36氪采访中,梁文锋表示,"我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。"
如果说梁文锋的鲶鱼效应,在于证明了用低成本也能高效率训练出ai大模型,无意卷到了bat。去年一年,黄仁勋则在制造另一种鲶鱼效应,即以每6个月为周期,更新更高性能的芯片,使得害怕抢不到最新gpu而掉队的巨头们,疯抢英伟达gpu,微软、谷歌、meta、马斯克,都被拽进了这场gpu大作战游戏里。
一年后,deepseek成为硅谷眼中"神秘的东方力量",被scale ai创始人亚历山大·王(alexandr wang)评价道,“过去十年来,美国可能一直在人工智能竞赛中领先于中国,但deepseek的ai大模型发布可能会‘改变一切’。”
起因是deepseek在年前发布了新的开源模型deepseek r1,不仅性能追上了openai o1完整版,用550万美元的训练开销做到硅谷投入上亿美元的效果。
在这场热潮前,大模型的主流叙事是英伟达高端gpu“一芯难求”,而如今,黄仁勋的销冠神话,迎来了梁文锋的正面冲击。
梁文锋所带领的deepseek,让美国华尔街开始重新审视,在这场大模型生存战里,英伟达芯片和高端算力的需求是否存在泡沫。这样的担忧,使得英伟达在1月27日一夜蒸发近6000亿美元市值。
而这一切,在梁文锋看来,只是“按照自己的步调来做事”,然后核算成本定价。
梁文锋并非有意成为鲶鱼,但正如硅谷著名风投家marc andreessen的评价:“作为开源项目,这是对世界的一份深远馈赠 。”他们节约了大量的成本,也让很多高薪的硅谷大佬,和享受这个行业巨大泡沫的公司,颜面扫地。
1月28日,openai ceo奥特曼终于回应了deepseek,他夸赞deepseek让人印象深刻,特别在于提供模型的性价比上。随后则话锋一转,强调openai将提供更好的模型,并暂停一些发布。此前,奥特曼在x上迅速发布首个智能体operator,还开始剧透起了即将上线的o3-mini。网友戏称,“deepseek逼出了奥特曼的新大招。”
同时,根据外媒爆料,deepseek的发布引发了meta的紧急加班,工程师疯狂拆解代码,员工爆出其高管的薪资竟比训练整个v3模型的成本还高。
2025年,不想当鲶鱼的梁文锋,结结实实搅动了一池春水。
“大部分中国公司习惯follow,而不是创新。”而在采访中,对于上一次deepseek引发大模型价格战的热议,梁文锋表示,deepseek正以创新贡献者的身份,参与到这场此前由美国主导的科技创新游戏里。
这位80后ai创业者,组织起一些top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人,他形容团队成员们,“很多人对做研究的渴望,远超对钱的在意。”
梁文锋将deepseek定义为“硬核创新”,做最难的事,似乎成为他所带领的deepseek的一致认知。
在鲶鱼的外观之下,deepseek在梁文锋眼中,内里则满是技术理想主义的叙事。
此前,梁文锋曾断言,“中国必然需要有人站到技术的前沿”。而这一次,deepseek先踏上浪头,但无论是鲶鱼梁文锋,还是“技术理想主义者”梁文锋,要回答的问题还很多、很多。
a
这次deepseek的出圈,总少不了与openai的对比。更有网友调侃,“deepseek活成了真openai(开放模型),而openai活成了close ai(封闭模型)”。
实际上,奥特曼和梁文锋,都是典型的学霸型创业者。
前者18岁考上斯坦福大学计算机系,大二便辍学创业;后者毕业于浙江大学,2015年成立幻方量化,在采访中梁文锋提到,2022年底chatgpt风靡时,他们就开始动手招聘了。2023年7月,梁文锋成立了deepseek。
图注:出现在新闻联播内的梁文锋|图源:字母榜截图
梁文锋并不讳言openai对他的启发性,甚至,在不少地方都和奥特曼展现出了惊人的相似。
出售一手创办的初创公司loopt后,奥特曼创立了风投基金hydrazine capital。2015年,30岁的奥特曼成为知名孵化器yc的总裁,但在agi(通用人工智能)不被看好,融资艰难的2015年,认定深度学习前景无量的奥特曼,却和特斯拉创始人马斯克共同创立了openai。
梁文锋曾是币安的早期成员,并一手创办了幻方量化,作为同样有着投资经历的创业者,梁文锋入局的2023年,大厂探入,许多创业型公司放弃了只专注通用型大模型的大方向,梁文锋却坚定deepseek要专注基础模型的研究和突破。
同样,在早期,兜里没钱的奥特曼,会将“一起构建agi”写在招聘信息里。这个当时可怕而遥远的目标,让openai吸引到了一大批年轻的agi信仰者。
“年轻、有潜力”,成为奥特曼和梁文锋共同的选人标准。
在梁文锋看来,如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。也正是因此,这个没有知名技术大牛,不在播客分享创业感悟的纯本土创业团队,成了最快追上openai的队伍。
甚至,在最开始,如同成立之初以非营利为目的的openai,商业化也并未写入deepseek的to do list。
在这点上,奥特曼与梁文锋同样有着一致的想法。
“openai早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事。”在采访中,梁文锋面对大模型烧钱的相关提问表示,如果一定要找一个商业上的理由,(一个商业公司去做一种无限投入的研究性探索),可能是找不到的,因为划不来。从商业角度来讲,基础研究投入回报比很低。
但“一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。”
如今,梁文锋的agi梦想已经震动了整个硅谷。
不过,曾经以非营利为目的的openai,希望对抗大公司的ai霸权,奥特曼随后引入微软的巨额投资。在奥特曼的主导下,openai将成为一家真正的营利性企业。而后来者的梁文锋,却始终坚持模型开源,并希望更多人,哪怕一个小 app都可以低成本用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。
对创立初便以agi普惠全人类为使命的openai来说,奥特曼曾射出这颗子弹,如今时隔10年,正中自己的眉心。
从这一点来看,相比起做一条鲶鱼,技术理想主义者的标签,似乎更适合梁文锋。
b
但不想成为鲶鱼的理想主义者梁文锋,却意外两次“卷到了”所有人。
第一次,deepseek成了引发中国大模型价格战的源头。
在被ai连续轰炸的2024年5月,deepseek声名鹊起。起因是它们发布的一款名为deepseek v2的开源模型,堪称价格屠夫:推理成本被降到每百万token仅 1块钱,约等于llama3 70b的七分之一,gpt-4 turbo的七十分之一。
deepseek凭借超绝性价比成了“ai界拼多多”,bat们也被卷得坐不住,纷纷降价。中国大模型价格战由此一触即发。
首先智谱ai跟进,将入门级产品降价,随后字节将旗舰模型降到和deepseek同价,接着阿里、腾讯等随即跟上。
尽管,除了同为deepseek创始人的徐进毕业于竺可桢学院,是黄峥的学弟,deepseek与拼多多并无更多交集。
一心想着“让ai变成人人可以用得起的东西”的梁文锋,甚至诧异于大厂的跟进动作,毕竟“大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事。”
而第二次,deepseek引发了硅谷大地震。
更低成本、不输openai成熟模型的效率,梁文锋带领下的deepseek再次坐稳了“ai界拼多多”的宝座,并且成功出海。
目前,deepseek官方尚未公布训练推理模型r1的完整成本,但官方公布了其api定价,r1每百万输入tokens在1元-4元人民币,每百万输出tokens为16元人民币。作为对比,openai o1的运行成本约为前者的30倍。
换言之,梁文锋以不到十分之一的成本,做出了硅谷需要上亿投入才能烧出的大模型。
硅谷的震动几乎是必然的。除了被拿来全面对标的openai,首当其冲的是meta。以“大模型开源之王”为title的meta,内部员工匿名发布消息称,meta的生成式ai部门正因deepseek处于恐慌中,甚至爆料称尚未发布的新一代开源模型llama 4,在基准测试中已经落后于deepseek。
a16z合伙人、ai大模型mistral董事会成员 anjney midha更是发文说道,从斯坦福到麻省理工,deepseek r1几乎一夜之间就成了美国顶尖大学研究人员的首选模型。
与此同时,梁文锋带领的deepseek正撬起openai的墙角。
企业级ai代理开发商superfocus的联合创始人表示,相比起正使用的openai旗舰模型gpt-4,deepseek提供的支持不仅相似,甚至更好。“superfocus可能会在未来几周转向deepseek,因为deepseek可以免费下载、在自家服务器上存储和运行,并将增加销售产品的利润率。”比openai便宜30倍的api价格,让梁文锋一不小心就出了海。
同时,作为纯本土团队的deepseek火了,梁文锋领军年轻中国团队,无海外背景却硬刚硅谷巨头的叙事成了流量密码。
c
爆火之下,梁文锋还需要回答更多的新问题。
字母榜尝试让deepseek作为一名记者,对梁文锋提一个问题,这是deepseek的回答:
“deepseek宣称其模型训练成本仅为行业1/10,但有开发者指出,这可能是通过大幅缩减模型参数规模或依赖幻方早期囤积的廉价算力实现的,而非真正的技术突破。您是否承认这种‘成本优势’本质是金融资源套利,而非算法创新?”
令人惊讶的是,这个由deepseek问出的问题,几乎可以概括如今围绕着deepseek的大部分争议。
正如chatgpt横空出世让openai成为当之无愧的ai头部企业,英伟达的gpu凭借高性能成为算力基础,让黄仁勋享尽高光,现在,deepseek的r1模型,却只能证明梁文锋有能力做出一个和openai最新模型相差无几的模型。
在采访中,梁文锋不止一次地提到希望打破硅谷的科技垄断,希望站在“技术的前沿”,但做一个和openai最新模型相差无几的模型,还远谈不上真正的超越,r1仍然是对openai的模仿和跟随。
deepseek爆火之下,冲浪达人马斯克一直罕见地并未发表评论,却在最近点赞了一则推文。
其中,推文中提到了deepseek大量依赖模型蒸馏技术,需要借助chatgpt-4o和o1才能完成训练。
尽管模型蒸馏是一项常见的技术手段,能够将openai中的大量数据迅速提炼重点并快速理解和应用,但这种模式只能让deepseek接近openai,而难以真正超越openai。
更不必说,尽管宣扬自己是技术理想主义,梁文锋的背后是量化私募巨头幻方,是bat之外唯一能够储备万张a100芯片的公司。据《财经十一人》报道,2023年时国内拥有超过1万枚gpu的企业不超过5家,其中便包括幻方。
而能够用十分之一的成本做出同等规模的大模型,也正是基于梁文锋的实验室已经投入了数亿美元做前期研究,并拥有大规模的芯片。想成为ai界拼多多,普通ai创业团队几乎难以复现梁文锋的路径。
图注:x上有关deepseek的meme图|图源:x平台
需要肯定的是,站在openai这个巨人的肩上,梁文锋带领deepseek实现了一场颇为惊艳的突围,但什么时候能够赶在openai前面推出未来一代模型,如gpt- 5,那时才是梁文锋技术理想的aha时刻。
彼时,没有openai做坐标,梁文锋还能否继续靠低成本策略做出性能强大的大模型,才是等待deepseek的更大考验。
梁文锋曾这样介绍自己,在广东一个五线城市长大,父亲是小学老师。“九十年代,广东赚钱机会很多,当时有不少家长到我家里来,家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。”
梁文锋充满信心,在他看来,以后的硬核创新会越来越多。“我们只是还需要一堆事实和一个过程。”
如今,外界都在期待梁文锋和deepseek会是哪个过程之一。
参考资料:
《揭秘deepseek:一个更极致的中国技术理想主义故事》 暗涌waves
《疯狂的幻方:一家隐形ai巨头的大模型之路》 暗涌waves
《deepseek推翻两座大山》 字母榜