梁文锋就是AI界的黄峥

2025年01月29日20:00:15 动漫 9316

梁文锋就是AI界的黄峥 - 天天要闻

梁文锋带领着deepseek,还在继续搅动大模型行业。

继用r1模型炸场之后,1 月 28 日凌晨,除夕夜前一晚,deepseek 又开源了其多模态模型 janus-pro-7b,宣布在 geneval 和 dpg-bench 基准测试中击败了 dall-e 3(来自 openai)和 stable diffusion。

随后特朗普在会议上提到deepseek的出现为美国的企业敲响了警钟,“我们需要集中精力在竞争中获胜”。相隔一天,据外媒报道,多名美国官员称deepseek是“偷窃”,正对其展开国家安全调查。

openai也适时发布声明称一直知道其他公司试图蒸馏美国领先公司的模型,如今“采取反制措施保护我们的知识产权”,并表示将和美国政府紧密合作保护最先进模型免受窃取。

或许梁文锋自己都想不到,意外火出圈的deepseek,刺痛着更多人的神经。

而一年前,deepseek v2模型发布时,便开始被冠上ai界拼多多的称号。

反卷大厂的梁文锋,早已在ai领域复制过黄峥式“后来居上”的故事,并在国内掀起打到骨折的大模型价格战。

当时,在接受36氪采访中,梁文锋表示,"我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。"

如果说梁文锋的鲶鱼效应,在于证明了用低成本也能高效率训练出ai大模型,无意卷到了bat。去年一年,黄仁勋则在制造另一种鲶鱼效应,即以每6个月为周期,更新更高性能的芯片,使得害怕抢不到最新gpu而掉队的巨头们,疯抢英伟达gpu,微软、谷歌、meta、马斯克,都被拽进了这场gpu大作战游戏里。

一年后,deepseek成为硅谷眼中"神秘的东方力量",被scale ai创始人亚历山大·王(alexandr wang)评价道,“过去十年来,美国可能一直在人工智能竞赛中领先于中国,但deepseek的ai大模型发布可能会‘改变一切’。”

起因是deepseek在年前发布了新的开源模型deepseek r1,不仅性能追上了openai o1完整版,用550万美元的训练开销做到硅谷投入上亿美元的效果。

在这场热潮前,大模型的主流叙事是英伟达高端gpu“一芯难求”,而如今,黄仁勋的销冠神话,迎来了梁文锋的正面冲击。

梁文锋所带领的deepseek,让美国华尔街开始重新审视,在这场大模型生存战里,英伟达芯片和高端算力的需求是否存在泡沫。这样的担忧,使得英伟达在1月27日一夜蒸发近6000亿美元市值。

而这一切,在梁文锋看来,只是“按照自己的步调来做事”,然后核算成本定价。

梁文锋并非有意成为鲶鱼,但正如硅谷著名风投家marc andreessen的评价:“作为开源项目,这是对世界的一份深远馈赠 。”他们节约了大量的成本,也让很多高薪的硅谷大佬,和享受这个行业巨大泡沫的公司,颜面扫地。

1月28日,openai ceo奥特曼终于回应了deepseek,他夸赞deepseek让人印象深刻,特别在于提供模型的性价比上。随后则话锋一转,强调openai将提供更好的模型,并暂停一些发布。此前,奥特曼在x上迅速发布首个智能体operator,还开始剧透起了即将上线的o3-mini。网友戏称,“deepseek逼出了奥特曼的新大招。”

梁文锋就是AI界的黄峥 - 天天要闻

同时,根据外媒爆料,deepseek的发布引发了meta的紧急加班,工程师疯狂拆解代码,员工爆出其高管的薪资竟比训练整个v3模型的成本还高。

2025年,不想当鲶鱼的梁文锋,结结实实搅动了一池春水。

“大部分中国公司习惯follow,而不是创新。”而在采访中,对于上一次deepseek引发大模型价格战的热议,梁文锋表示,deepseek正以创新贡献者的身份,参与到这场此前由美国主导的科技创新游戏里。

这位80后ai创业者,组织起一些top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人,他形容团队成员们,“很多人对做研究的渴望,远超对钱的在意。”

梁文锋将deepseek定义为“硬核创新”,做最难的事,似乎成为他所带领的deepseek的一致认知。

在鲶鱼的外观之下,deepseek在梁文锋眼中,内里则满是技术理想主义的叙事。

此前,梁文锋曾断言,“中国必然需要有人站到技术的前沿”。而这一次,deepseek先踏上浪头,但无论是鲶鱼梁文锋,还是“技术理想主义者”梁文锋,要回答的问题还很多、很多。

a

这次deepseek的出圈,总少不了与openai的对比。更有网友调侃,“deepseek活成了真openai(开放模型),而openai活成了close ai(封闭模型)”。

实际上,奥特曼和梁文锋,都是典型的学霸型创业者。

前者18岁考上斯坦福大学计算机系,大二便辍学创业;后者毕业于浙江大学,2015年成立幻方量化,在采访中梁文锋提到,2022年底chatgpt风靡时,他们就开始动手招聘了。2023年7月,梁文锋成立了deepseek。

梁文锋就是AI界的黄峥 - 天天要闻

图注:出现在新闻联播内的梁文锋|图源:字母榜截图

梁文锋并不讳言openai对他的启发性,甚至,在不少地方都和奥特曼展现出了惊人的相似。

出售一手创办的初创公司loopt后,奥特曼创立了风投基金hydrazine capital。2015年,30岁的奥特曼成为知名孵化器yc的总裁,但在agi(通用人工智能)不被看好,融资艰难的2015年,认定深度学习前景无量的奥特曼,却和特斯拉创始人马斯克共同创立了openai。

梁文锋曾是币安的早期成员,并一手创办了幻方量化,作为同样有着投资经历的创业者,梁文锋入局的2023年,大厂探入,许多创业型公司放弃了只专注通用型大模型的大方向,梁文锋却坚定deepseek要专注基础模型的研究和突破。

同样,在早期,兜里没钱的奥特曼,会将“一起构建agi”写在招聘信息里。这个当时可怕而遥远的目标,让openai吸引到了一大批年轻的agi信仰者。

“年轻、有潜力”,成为奥特曼和梁文锋共同的选人标准。

在梁文锋看来,如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。也正是因此,这个没有知名技术大牛,不在播客分享创业感悟的纯本土创业团队,成了最快追上openai的队伍。

甚至,在最开始,如同成立之初以非营利为目的的openai,商业化也并未写入deepseek的to do list。

在这点上,奥特曼与梁文锋同样有着一致的想法。

“openai早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事。”在采访中,梁文锋面对大模型烧钱的相关提问表示,如果一定要找一个商业上的理由,(一个商业公司去做一种无限投入的研究性探索),可能是找不到的,因为划不来。从商业角度来讲,基础研究投入回报比很低。

但“一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。”

如今,梁文锋的agi梦想已经震动了整个硅谷。

不过,曾经以非营利为目的的openai,希望对抗大公司的ai霸权,奥特曼随后引入微软的巨额投资。在奥特曼的主导下,openai将成为一家真正的营利性企业。而后来者的梁文锋,却始终坚持模型开源,并希望更多人,哪怕一个小 app都可以低成本用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。

对创立初便以agi普惠全人类为使命的openai来说,奥特曼曾射出这颗子弹,如今时隔10年,正中自己的眉心。

从这一点来看,相比起做一条鲶鱼,技术理想主义者的标签,似乎更适合梁文锋。

b

但不想成为鲶鱼的理想主义者梁文锋,却意外两次“卷到了”所有人。

第一次,deepseek成了引发中国大模型价格战的源头。

在被ai连续轰炸的2024年5月,deepseek声名鹊起。起因是它们发布的一款名为deepseek v2的开源模型,堪称价格屠夫:推理成本被降到每百万token仅 1块钱,约等于llama3 70b的七分之一,gpt-4 turbo的七十分之一。

deepseek凭借超绝性价比成了“ai界拼多多”,bat们也被卷得坐不住,纷纷降价。中国大模型价格战由此一触即发。

首先智谱ai跟进,将入门级产品降价,随后字节将旗舰模型降到和deepseek同价,接着阿里、腾讯等随即跟上。

尽管,除了同为deepseek创始人的徐进毕业于竺可桢学院,是黄峥的学弟,deepseek与拼多多并无更多交集。

一心想着“让ai变成人人可以用得起的东西”的梁文锋,甚至诧异于大厂的跟进动作,毕竟“大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事。”

而第二次,deepseek引发了硅谷大地震。

更低成本、不输openai成熟模型的效率,梁文锋带领下的deepseek再次坐稳了“ai界拼多多”的宝座,并且成功出海。

目前,deepseek官方尚未公布训练推理模型r1的完整成本,但官方公布了其api定价,r1每百万输入tokens在1元-4元人民币,每百万输出tokens为16元人民币。作为对比,openai o1的运行成本约为前者的30倍。

梁文锋就是AI界的黄峥 - 天天要闻

换言之,梁文锋以不到十分之一的成本,做出了硅谷需要上亿投入才能烧出的大模型。

硅谷的震动几乎是必然的。除了被拿来全面对标的openai,首当其冲的是meta。以“大模型开源之王”为title的meta,内部员工匿名发布消息称,meta的生成式ai部门正因deepseek处于恐慌中,甚至爆料称尚未发布的新一代开源模型llama 4,在基准测试中已经落后于deepseek。

a16z合伙人、ai大模型mistral董事会成员 anjney midha更是发文说道,从斯坦福到麻省理工,deepseek r1几乎一夜之间就成了美国顶尖大学研究人员的首选模型。

与此同时,梁文锋带领的deepseek正撬起openai的墙角。

企业级ai代理开发商superfocus的联合创始人表示,相比起正使用的openai旗舰模型gpt-4,deepseek提供的支持不仅相似,甚至更好。“superfocus可能会在未来几周转向deepseek,因为deepseek可以免费下载、在自家服务器上存储和运行,并将增加销售产品的利润率。”比openai便宜30倍的api价格,让梁文锋一不小心就出了海。

同时,作为纯本土团队的deepseek火了,梁文锋领军年轻中国团队,无海外背景却硬刚硅谷巨头的叙事成了流量密码。

c

爆火之下,梁文锋还需要回答更多的新问题。

字母榜尝试让deepseek作为一名记者,对梁文锋提一个问题,这是deepseek的回答:

“deepseek宣称其模型训练成本仅为行业1/10,但有开发者指出,这可能是通过大幅缩减模型参数规模或依赖幻方早期囤积的廉价算力实现的,而非真正的技术突破。您是否承认这种‘成本优势’本质是金融资源套利,而非算法创新?”

令人惊讶的是,这个由deepseek问出的问题,几乎可以概括如今围绕着deepseek的大部分争议。

正如chatgpt横空出世让openai成为当之无愧的ai头部企业,英伟达的gpu凭借高性能成为算力基础,让黄仁勋享尽高光,现在,deepseek的r1模型,却只能证明梁文锋有能力做出一个和openai最新模型相差无几的模型。

在采访中,梁文锋不止一次地提到希望打破硅谷的科技垄断,希望站在“技术的前沿”,但做一个和openai最新模型相差无几的模型,还远谈不上真正的超越,r1仍然是对openai的模仿和跟随。

deepseek爆火之下,冲浪达人马斯克一直罕见地并未发表评论,却在最近点赞了一则推文。

其中,推文中提到了deepseek大量依赖模型蒸馏技术,需要借助chatgpt-4o和o1才能完成训练。

尽管模型蒸馏是一项常见的技术手段,能够将openai中的大量数据迅速提炼重点并快速理解和应用,但这种模式只能让deepseek接近openai,而难以真正超越openai。

更不必说,尽管宣扬自己是技术理想主义,梁文锋的背后是量化私募巨头幻方,是bat之外唯一能够储备万张a100芯片的公司。据《财经十一人》报道,2023年时国内拥有超过1万枚gpu的企业不超过5家,其中便包括幻方。

而能够用十分之一的成本做出同等规模的大模型,也正是基于梁文锋的实验室已经投入了数亿美元做前期研究,并拥有大规模的芯片。想成为ai界拼多多,普通ai创业团队几乎难以复现梁文锋的路径。

梁文锋就是AI界的黄峥 - 天天要闻

图注:x上有关deepseek的meme图|图源:x平台

需要肯定的是,站在openai这个巨人的肩上,梁文锋带领deepseek实现了一场颇为惊艳的突围,但什么时候能够赶在openai前面推出未来一代模型,如gpt- 5,那时才是梁文锋技术理想的aha时刻。

彼时,没有openai做坐标,梁文锋还能否继续靠低成本策略做出性能强大的大模型,才是等待deepseek的更大考验。

梁文锋曾这样介绍自己,在广东一个五线城市长大,父亲是小学老师。“九十年代,广东赚钱机会很多,当时有不少家长到我家里来,家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。”

梁文锋充满信心,在他看来,以后的硬核创新会越来越多。“我们只是还需要一堆事实和一个过程。”

如今,外界都在期待梁文锋和deepseek会是哪个过程之一。

参考资料:

《揭秘deepseek:一个更极致的中国技术理想主义故事》 暗涌waves

《疯狂的幻方:一家隐形ai巨头的大模型之路》 暗涌waves

《deepseek推翻两座大山》 字母榜

动漫分类资讯推荐

“抢人大战”打到“门户”里:深圳携超3.5万个岗位赴沪挖人 AI岗成新晋“顶流” - 天天要闻

“抢人大战”打到“门户”里:深圳携超3.5万个岗位赴沪挖人 AI岗成新晋“顶流”

每经记者:黄海 每经编辑:杨夏新一轮城市“抢人大战”开打。4月13日至14日,2025年N城联动春季招聘活动(上海站)正式启动。作为活动承办城市的深圳,携超3.5万个岗位赴沪,在位于上海“门户”虹桥枢纽板块的国家会展中心设场,向在沪应届大学生抛出橄榄枝。据官方统计,参与此次大型招聘活动的企业共751家,华为、比亚迪...
什么?动漫展也可能是“盗版”的? - 天天要闻

什么?动漫展也可能是“盗版”的?

近年来,动漫文化蓬勃发展,各类动漫展也成为年轻人展示自我、释放热情的舞台,可你想过吗?你参加的线下动漫展可能是“盗版”的!近日,上海市金山区人民法院(以下简称金山区人民法院)审结了一起动漫展侵犯游戏角色形象、游戏视频及游戏名称知识产权的纠纷
孙悟空携手阿童木,茶水博士怎么看? - 天天要闻

孙悟空携手阿童木,茶水博士怎么看?

2025年日本大阪世博会今天正式开幕,会期184天,以“构想焕发生机的未来社会”为主题,围绕“健康生活的多种方式”和“可持续社会经济系统”两大核心探索如何实现社会可持续发展,预计接待访客2820万人次。作为最大的外国自建馆之一,中国馆也于今日正式对外开放。自去年2月2日开工以来,中国馆仅用一年多时间完成建设,成...
陈敏,已归国! - 天天要闻

陈敏,已归国!

来源:政事儿 宁波东方理工大学宁波东方理工大学(暂名)网站最新信息显示,曾任美国普渡大学数学系教授的陈敏,已回国,担任宁波东方理工大学(暂名)教授。据介绍,1978年,陈敏进入北京大学数学系学习,1985年北大硕士毕业后,先后在普林斯顿大学航空航天系、印第安纳大学数学系攻读硕士、博士学位。1991年开始,陈敏先...
上海·焕新|未来生活原型街 - 天天要闻

上海·焕新|未来生活原型街

由上海市委宣传部、上海市委网信办、上海市委外宣办与上海日报联合出品的《上海·焕新》系列视频已全网推出。第六集《未来生活原型街》讲述了废弃厂房和“老破小”化身声学实验室、撸猫咖啡馆与跨界工坊,构建出可触摸的未来社区生活样本。详见(视频时长:4分34秒)位于杨浦的NICE2035未来生活原型街,是城市焕新的创新...
豆瓣九分,治愈十万人的动画原著 | 疾风再起,奔跑不息 - 天天要闻

豆瓣九分,治愈十万人的动画原著 | 疾风再起,奔跑不息

《强风吹拂》豆瓣图书TOP250中,《强风吹拂》是一本独特的书,它凭借一项简单的运动、专注的爱好,纯粹、清新、一往无前,在当下纷纷扰扰的焦虑社会中,有着非凡的激励人心的作用。不少人在读完这本书后,开始尝试长跑,又或捡起一项早已遗忘的爱好,在日积月累的坚持与投入中,重新发现自己身上蕴藏的力量。“明明这么痛苦...
国家安全,人人有责:“小安”文化集市在徐汇滨江举办 - 天天要闻

国家安全,人人有责:“小安”文化集市在徐汇滨江举办

今年4月15日是第十个全民国家安全教育日,主题是“全民国家安全教育 走深走实十周年”。4月12日,国安文化品牌小安工作室在徐汇西岸梦中心举办“小安”文化集市。手拿“小安护照”,学习国家安全相关知识……集市现场,新潮有趣的游戏体验吸引了众多市
正式启动!英才∞+ - 天天要闻

正式启动!英才∞+

刚刚!“百万英才汇南粤”2025年N城联动春季招聘活动(上海站)正式启动!此次广东省以深圳为主力,携华为、腾讯、比亚迪等751家单位来沪,组成“顶配引才团”,岗位总数3.5万个,其中年薪50万—100万的岗位超4000个,100万以上的岗位超800个。同时以AI简历诊断、AI职业能力测评、腾讯AI职业照拍摄等体验项目,创新实现数字...
中国MMA名将闫晓楠再战UFC,遗憾失利! - 天天要闻

中国MMA名将闫晓楠再战UFC,遗憾失利!

4月13日,中国MMA名将“狂怒”闫晓楠在UFC打响了最新一战,对手是草量级排名第三位的杨迪罗巴。闫晓楠是我们很熟悉的拳手,她在UFC奋战多年,如今排名草量级第一位。这场比赛,也被不少武粉视为冠军挑....