人類數據將枯竭?強化學習獲11億美金押注,AI巨頭路線之爭白熱化

【新智元導讀】AlphaGo 之父 David Silver 創辦的 Ineffable Intelligence 獲 11 億美元種子輪,創歐洲融資紀錄,估值達 51 億美元。這家公司押注強化學習和自我經驗學習,試圖挑戰依賴Scaling Law的大模型主線。

4 月 27 日,前谷歌 DeepMind 頂級研究員、UCL 教授 David Silver 創辦的倫敦 AI 實驗室 Ineffable Intelligence 宣布完成 11 億美元種子輪融資,投後估值 51 億美元。

https://www.cnbc.com/2026/04/27/deepmind-ineffable-intelligence-record-seed-funding-nvidia-google.html

這是歐洲迄今最大規模種子輪。

Sequoia Capital 和 Lightspeed Venture Partners 共同領投,Nvidia、谷歌、Index、DST Global、英國 Sovereign AI Fund 等參與。

Ineffable 的目標是,做一個從自身經驗中發現知識的「superlearner」,繼續把強化學習推向 ASI。

這筆錢的特別之處在於階段。

Ineffable 成立時間只有數月,公開產品、收入、路線圖都還有限,但一上來就拿到 51 億美元估值。

AI 投資已經進入一個新階段,頂尖研究員的個人信用,正在替代傳統意義上的商業驗證,成為早期融資最稀缺的抵押物。

這筆巨款,投向了強化學習

過去三年,AI 行業的主線是大語言模型。

更大的語料、更大的集群、更強的推理,幾乎構成了所有頭部公司的共同劇本。

Silver 選擇的是另一條路,強化學習。

強化學習的核心,是讓模型在環境里行動,通過反饋修正策略。

圍棋、國際象棋、星際爭霸這些封閉系統,是它最早打出聲量的地方。

遊戲《星際爭霸 2》

Silver 的新公司想把這套方法放大,讓系統從基本動作技能一路學到科學、數學、技術層面的突破。

公司公開表述里,Ineffable 的使命是「與超級智能進行第一次接觸」。

Silver 對大模型路線的分歧也在這裡。

大語言模型主要從人類已經寫下的文本和代碼中學習,能力邊界很大程度上受制於人類數據。

Silver 在接受 Wired 採訪時把人類數據比作化石燃料,把自我學習比作可再生能源。

這個比喻也解釋了為什麼投資人願意給一個沒有完全展開商業模式的實驗室開出巨額支票。

強化學習

是Scaling Law撞牆後的出路嗎?

依賴海量人類數據的傳統 Scaling Law 沒有失效,但邊際收益正在變差。

繼續堆參數、堆語料、堆訓練算力仍會帶來提升,只是高質量人類文本正在變成瓶頸。

Epoch AI 估算,公開高質量人類文本的有效庫存約為 300 萬億 Token,按趨勢可能最早在今年,最晚在 2032 年,被徹底用光。

https://epoch.ai/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

也就是說,舊範式這條路還能走,但越來越貴、越來越慢。

純強化學習確實提供了一條更接近 AGI / ASI 的路線,因為它讓模型從「模仿人類文本」轉向「通過行動和反饋獲得經驗」。

AlphaGo Zero 已經證明,在規則清晰、反饋明確的環境里,系統可以不依賴人類棋譜,通過自我對弈達到超人水平。

OpenAI o1 也顯示,大規模強化學習和測試時更多思考時間,能顯著增強複雜推理能力。

但純強化學習短期很難單獨承擔 AGI 路線。

圍棋、數學、代碼這類任務有明確驗證器,強化學習很強;

現實世界的問題沒有穩定獎勵函數,探索成本高,安全和對齊也更難。

谷歌 DeepMind 的 AlphaProof 更像是現實方向的樣板,它結合預訓練語言模型、Lean 形式化驗證和 AlphaZero 式強化學習,在 IMO 上達到銀牌水平。

所以更靠譜的判斷是,未來不是大模型預訓練和強化學習二選一,而是混合路線

預訓練提供知識和語言底座,強化學習提供行動反饋和目標壓力,搜索、驗證器、工具調用、仿真環境提供可持續的新經驗。

ASI 的關鍵,是讓它能持續試錯、驗證、發現,並把經驗重新變成能力。

大廠人,正在變成新的公司

Ineffable 趕上了一個窗口期。

OpenAI、DeepMind、Anthropic、xAI 等公司在上一輪 AI 競賽中聚集了最稀缺的人才,也開始向創業市場外溢。

大模型公司繼續用巨額算力和產品分發打仗,離開的人帶着新路線、新組織和更高上行空間,去拿另一張桌子的籌碼。

類似案例正在增多。

TechCrunch 提到,前 DeepMind 研究員 Tim Rocktäschel 創辦的 Recursive Superintelligence 曾被報道融資需求可能上探 10 億美元;

Yann LeCun 離開 Meta AI 負責人崗位後,其參與的 AMI Labs 在 3 月宣布 10.3 億美元融資。

Ineffable 不是孤例,它是頂尖研究員創業潮里,金額最誇張的其中一筆。

這也解釋了英國政府為何入場。

英國 Sovereign AI Fund 和 British Business Bank 參與了這輪融資,後者確認投資 2000 萬美元,並稱過去 12 個月已做出 9 筆 AI 投資,包括 Wayve、PolyAI 等公司。

對英國來說,DeepMind 被谷歌收購之後,倫敦長期擁有頂級 AI 人才密度,但缺少能留在本土、繼續擴張的前沿實驗室。

Ineffable 提供了一個重新下注的機會。

最大的問題,是從遊戲走向世界

Ineffable 的技術敘事很乾凈,也有可見的風險。

圍棋、象棋、星際爭霸有規則、邊界和可計算的反饋。

真實世界的科學發現、技術發明和社會系統,沒有這麼穩定的獎勵函數。

一個智能體在模擬環境中學到的策略,如何遷移到開放世界,是強化學習走向通用智能繞不開的問題。

Silver 的答案仍然是模擬。

Wired 報道稱,他希望把 Agent 放進模擬環境,讓它們學習達成目標、相互協作,並觀察它們如何對待其他智能體。

這種方法有一個優點,系統行為在更可控的空間里被觀察;

也有一個難點,模擬世界必須足夠豐富,才可能訓練出對真實世界有用的能力。

安全問題也會隨之被放大。

一個從經驗中學習、持續尋找更優策略的系統,可能會發現人類沒有預設過的路徑。

強化學習的魅力正在這裡,風險也正在這裡。

投資人押注的,其實是 Silver 能不能把 AlphaGo 時代那套「從經驗中學習」的方法,從遊戲房間帶到更大的世界。

David Silver 的第二次開局

David Silver 的履歷是這個估值的最重要支柱。

UCL 官網資料顯示,他曾任 DeepMind 強化學習研究組負責人,主導 AlphaGo,並參與 AlphaZero,後者通過自我對弈在圍棋、國際象棋、日本將棋中達到超人類水平。

同時,他還通過國際象棋比賽認識了 DeepMind CEO Demis Hassabis,並成為終生好友。

即便離開了 DeepMind,二人仍保持親密關係——David Silver 自述「離開只是因為想開闢一條全新的道路」。

https://www.wired.com/story/david-silver-ai-ineffable-intelligence-reinforcement-learning/

ACM 在 2020 年授予他 2019 ACM Prize in Computing,理由是其在計算機博弈上的突破性貢獻。

英國皇家學會資料還列出,他參與過從 Atari、AlphaGo、AlphaZero 到 AlphaStar 的多項關鍵工作。

其谷歌學術主頁及公開資料顯示,Silver 的學術引用量已達 30 萬,H-index 達到 103,是強化學習領域少數同時擁有學術影響力和產業戰績的人。

https://scholar.google.com/citations?user=-8DNE4UAAAAJ&hl=zh-CN&oi=ao

Ineffable 的 11 億美元種子輪,表面是又一個 AI 融資紀錄,核心是一次路線投票。

大模型仍在主賽道狂奔,Silver 試圖證明,ASI 還可以從行動、反饋和自我經驗里長出來。

過去,AlphaGo 讓強化學習第一次走到大眾面前;

現在,Ineffable 想讓它從棋盤走向一整套新的智能系統。