人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化

2026年05月01日21:32:12 科技 1623

【新智元导读】AlphaGo 之父 David Silver 创办的 Ineffable Intelligence 获 11 亿美元种子轮,创欧洲融资纪录,估值达 51 亿美元。这家公司押注强化学习和自我经验学习,试图挑战依赖Scaling Law的大模型主线。

4 月 27 日,前谷歌 DeepMind 顶级研究员、UCL 教授 David Silver 创办的伦敦 AI 实验室 Ineffable Intelligence 宣布完成 11 亿美元种子轮融资,投后估值 51 亿美元。

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

https://www.cnbc.com/2026/04/27/deepmind-ineffable-intelligence-record-seed-funding-nvidia-google.html

这是欧洲迄今最大规模种子轮。

Sequoia Capital 和 Lightspeed Venture Partners 共同领投,Nvidia、谷歌、Index、DST Global、英国 Sovereign AI Fund 等参与。

Ineffable 的目标是,做一个从自身经验中发现知识的“superlearner”,继续把强化学习推向 ASI。

这笔钱的特别之处在于阶段。

Ineffable 成立时间只有数月,公开产品、收入、路线图都还有限,但一上来就拿到 51 亿美元估值。

AI 投资已经进入一个新阶段,顶尖研究员的个人信用,正在替代传统意义上的商业验证,成为早期融资最稀缺的抵押物。

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

这笔巨款,投向了强化学习

过去三年,AI 行业的主线是大语言模型。

更大的语料、更大的集群、更强的推理,几乎构成了所有头部公司的共同剧本。

Silver 选择的是另一条路,强化学习。

强化学习的核心,是让模型在环境里行动,通过反馈修正策略。

围棋、国际象棋、星际争霸这些封闭系统,是它最早打出声量的地方。

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

游戏《星际争霸 2》

Silver 的新公司想把这套方法放大,让系统从基本动作技能一路学到科学、数学、技术层面的突破。

公司公开表述里,Ineffable 的使命是“与超级智能进行第一次接触”。

Silver 对大模型路线的分歧也在这里。

大语言模型主要从人类已经写下的文本和代码中学习,能力边界很大程度上受制于人类数据。

Silver 在接受 Wired 采访时把人类数据比作化石燃料,把自我学习比作可再生能源。

这个比喻也解释了为什么投资人愿意给一个没有完全展开商业模式的实验室开出巨额支票。

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

强化学习

是Scaling Law撞墙后的出路吗?

依赖海量人类数据的传统 Scaling Law 没有失效,但边际收益正在变差。

继续堆参数、堆语料、堆训练算力仍会带来提升,只是高质量人类文本正在变成瓶颈。

Epoch AI 估算,公开高质量人类文本的有效库存约为 300 万亿 Token,按趋势可能最早在今年,最晚在 2032 年,被彻底用光。

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

https://epoch.ai/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

也就是说,旧范式这条路还能走,但越来越贵、越来越慢。

纯强化学习确实提供了一条更接近 AGI / ASI 的路线,因为它让模型从“模仿人类文本”转向“通过行动和反馈获得经验”。

AlphaGo Zero 已经证明,在规则清晰、反馈明确的环境里,系统可以不依赖人类棋谱,通过自我对弈达到超人水平。

OpenAI o1 也显示,大规模强化学习和测试时更多思考时间,能显著增强复杂推理能力。

但纯强化学习短期很难单独承担 AGI 路线。

围棋、数学、代码这类任务有明确验证器,强化学习很强;

现实世界的问题没有稳定奖励函数,探索成本高,安全和对齐也更难。

谷歌 DeepMind 的 AlphaProof 更像是现实方向的样板,它结合预训练语言模型、Lean 形式化验证和 AlphaZero 式强化学习,在 IMO 上达到银牌水平。

所以更靠谱的判断是,未来不是大模型预训练和强化学习二选一,而是混合路线

预训练提供知识和语言底座,强化学习提供行动反馈和目标压力,搜索、验证器、工具调用、仿真环境提供可持续的新经验。

ASI 的关键,是让它能持续试错、验证、发现,并把经验重新变成能力。

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

大厂人,正在变成新的公司

Ineffable 赶上了一个窗口期。

OpenAI、DeepMind、Anthropic、xAI 等公司在上一轮 AI 竞赛中聚集了最稀缺的人才,也开始向创业市场外溢。

大模型公司继续用巨额算力和产品分发打仗,离开的人带着新路线、新组织和更高上行空间,去拿另一张桌子的筹码。

类似案例正在增多。

TechCrunch 提到,前 DeepMind 研究员 Tim Rocktäschel 创办的 Recursive Superintelligence 曾被报道融资需求可能上探 10 亿美元;

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

Yann LeCun 离开 Meta AI 负责人岗位后,其参与的 AMI Labs 在 3 月宣布 10.3 亿美元融资。

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

Ineffable 不是孤例,它是顶尖研究员创业潮里,金额最夸张的其中一笔。

这也解释了英国政府为何入场。

英国 Sovereign AI Fund 和 British Business Bank 参与了这轮融资,后者确认投资 2000 万美元,并称过去 12 个月已做出 9 笔 AI 投资,包括 Wayve、PolyAI 等公司。

对英国来说,DeepMind 被谷歌收购之后,伦敦长期拥有顶级 AI 人才密度,但缺少能留在本土、继续扩张的前沿实验室。

Ineffable 提供了一个重新下注的机会。

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

最大的问题,是从游戏走向世界

Ineffable 的技术叙事很干净,也有可见的风险。

围棋、象棋、星际争霸有规则、边界和可计算的反馈。

真实世界的科学发现、技术发明和社会系统,没有这么稳定的奖励函数。

一个智能体在模拟环境中学到的策略,如何迁移到开放世界,是强化学习走向通用智能绕不开的问题。

Silver 的答案仍然是模拟。

Wired 报道称,他希望把 Agent 放进模拟环境,让它们学习达成目标、相互协作,并观察它们如何对待其他智能体。

这种方法有一个优点,系统行为在更可控的空间里被观察;

也有一个难点,模拟世界必须足够丰富,才可能训练出对真实世界有用的能力。

安全问题也会随之被放大。

一个从经验中学习、持续寻找更优策略的系统,可能会发现人类没有预设过的路径。

强化学习的魅力正在这里,风险也正在这里。

投资人押注的,其实是 Silver 能不能把 AlphaGo 时代那套“从经验中学习”的方法,从游戏房间带到更大的世界。

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

David Silver 的第二次开局

David Silver 的履历是这个估值的最重要支柱。

UCL 官网资料显示,他曾任 DeepMind 强化学习研究组负责人,主导 AlphaGo,并参与 AlphaZero,后者通过自我对弈在围棋、国际象棋、日本将棋中达到超人类水平。

同时,他还通过国际象棋比赛认识了 DeepMind CEO Demis Hassabis,并成为终生好友。

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

即便离开了 DeepMind,二人仍保持亲密关系——David Silver 自述“离开只是因为想开辟一条全新的道路”。

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

https://www.wired.com/story/david-silver-ai-ineffable-intelligence-reinforcement-learning/

ACM 在 2020 年授予他 2019 ACM Prize in Computing,理由是其在计算机博弈上的突破性贡献。

英国皇家学会资料还列出,他参与过从 Atari、AlphaGo、AlphaZero 到 AlphaStar 的多项关键工作。

其谷歌学术主页及公开资料显示,Silver 的学术引用量已达 30 万,H-index 达到 103,是强化学习领域少数同时拥有学术影响力和产业战绩的人。

人类数据将枯竭?强化学习获11亿美金押注,AI巨头路线之争白热化 - 天天要闻

https://scholar.google.com/citations?user=-8DNE4UAAAAJ&hl=zh-CN&oi=ao

Ineffable 的 11 亿美元种子轮,表面是又一个 AI 融资纪录,核心是一次路线投票。

大模型仍在主赛道狂奔,Silver 试图证明,ASI 还可以从行动、反馈和自我经验里长出来。

过去,AlphaGo 让强化学习第一次走到大众面前;

现在,Ineffable 想让它从棋盘走向一整套新的智能系统。

科技分类资讯推荐

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相 - 天天要闻

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV,第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴,以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级,兼顾商务体面与家庭舒适,为西北高端用户带来一站式全能出行解决方案。
采购禁入!科华数据材料造假被拒门外 - 天天要闻

采购禁入!科华数据材料造假被拒门外

本报(chinatimes.net.cn)记者胡雅文 北京报道这家赶上AI算力风口的公司,因投标材料造假,被相关采购方列入禁入名单两年,其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告,明确驳回科华数据股份有限公司(下称“科华数据”,002335.SZ)此前提交的复议申请。早在一年前,科华数据已被认定在“信息通信枢纽...
快评乐道L80:15万元级买大五座,这波值得冲? - 天天要闻

快评乐道L80:15万元级买大五座,这波值得冲?

日前,乐道L80正式发布并开启预售,其整车购买预售价为24.58万元起,租电购买预售价则低至15.98万元起。面对大型SUV市场“细分再细分”之竞争趋势,这款乐道年度重磅新车都有哪些优势?又能否成为“大五座SUV革新之作”?下面,圈哥就带大家全方位感受。
成都直击凯威德:纯电全尺寸SUV的张扬与大气 - 天天要闻

成都直击凯威德:纯电全尺寸SUV的张扬与大气

4月22日,凯迪拉克以奥斯卡级盛典规格,将上海保利大剧院点亮为璀璨舞台,在品牌代言人倪妮与全场嘉宾的共同见证下,凯迪拉克全尺寸纯电公路旗舰——凯威德耀然上市。新车共推出长续航四驱Pro、高性能四驱Ultra两款配置,官方售价区间为46.88万-50.88万元。