人類數據將枯竭？強化學習獲11億美金押注，AI巨頭路線之爭白熱化

2026年05月01日21:32:12 科技 1623

【新智元導讀】AlphaGo 之父 David Silver 創辦的 Ineffable Intelligence 獲 11 億美元種子輪，創歐洲融資紀錄，估值達 51 億美元。這家公司押注強化學習和自我經驗學習，試圖挑戰依賴Scaling Law的大模型主線。

4 月 27 日，前谷歌 DeepMind 頂級研究員、UCL 教授 David Silver 創辦的倫敦 AI 實驗室 Ineffable Intelligence 宣布完成 11 億美元種子輪融資，投後估值 51 億美元。

https://www.cnbc.com/2026/04/27/deepmind-ineffable-intelligence-record-seed-funding-nvidia-google.html

這是歐洲迄今最大規模種子輪。

Sequoia Capital 和 Lightspeed Venture Partners 共同領投，Nvidia、谷歌、Index、DST Global、英國 Sovereign AI Fund 等參與。

Ineffable 的目標是，做一個從自身經驗中發現知識的「superlearner」，繼續把強化學習推向 ASI。

這筆錢的特別之處在於階段。

Ineffable 成立時間只有數月，公開產品、收入、路線圖都還有限，但一上來就拿到 51 億美元估值。

AI 投資已經進入一個新階段，頂尖研究員的個人信用，正在替代傳統意義上的商業驗證，成為早期融資最稀缺的抵押物。

這筆巨款，投向了強化學習

過去三年，AI 行業的主線是大語言模型。

更大的語料、更大的集群、更強的推理，幾乎構成了所有頭部公司的共同劇本。

Silver 選擇的是另一條路，強化學習。

強化學習的核心，是讓模型在環境里行動，通過反饋修正策略。

圍棋、國際象棋、星際爭霸這些封閉系統，是它最早打出聲量的地方。

遊戲《星際爭霸 2》

Silver 的新公司想把這套方法放大，讓系統從基本動作技能一路學到科學、數學、技術層面的突破。

公司公開表述里，Ineffable 的使命是「與超級智能進行第一次接觸」。

Silver 對大模型路線的分歧也在這裡。

大語言模型主要從人類已經寫下的文本和代碼中學習，能力邊界很大程度上受制於人類數據。

Silver 在接受 Wired 採訪時把人類數據比作化石燃料，把自我學習比作可再生能源。

這個比喻也解釋了為什麼投資人願意給一個沒有完全展開商業模式的實驗室開出巨額支票。

強化學習

是Scaling Law撞牆後的出路嗎？

依賴海量人類數據的傳統 Scaling Law 沒有失效，但邊際收益正在變差。

繼續堆參數、堆語料、堆訓練算力仍會帶來提升，只是高質量人類文本正在變成瓶頸。

Epoch AI 估算，公開高質量人類文本的有效庫存約為 300 萬億 Token，按趨勢可能最早在今年，最晚在 2032 年，被徹底用光。

https://epoch.ai/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

也就是說，舊範式這條路還能走，但越來越貴、越來越慢。

純強化學習確實提供了一條更接近 AGI / ASI 的路線，因為它讓模型從「模仿人類文本」轉向「通過行動和反饋獲得經驗」。

AlphaGo Zero 已經證明，在規則清晰、反饋明確的環境里，系統可以不依賴人類棋譜，通過自我對弈達到超人水平。

OpenAI o1 也顯示，大規模強化學習和測試時更多思考時間，能顯著增強複雜推理能力。

但純強化學習短期很難單獨承擔 AGI 路線。

圍棋、數學、代碼這類任務有明確驗證器，強化學習很強；

現實世界的問題沒有穩定獎勵函數，探索成本高，安全和對齊也更難。

谷歌 DeepMind 的 AlphaProof 更像是現實方向的樣板，它結合預訓練語言模型、Lean 形式化驗證和 AlphaZero 式強化學習，在 IMO 上達到銀牌水平。

所以更靠譜的判斷是，未來不是大模型預訓練和強化學習二選一，而是混合路線。

預訓練提供知識和語言底座，強化學習提供行動反饋和目標壓力，搜索、驗證器、工具調用、仿真環境提供可持續的新經驗。

ASI 的關鍵，是讓它能持續試錯、驗證、發現，並把經驗重新變成能力。

大廠人，正在變成新的公司

Ineffable 趕上了一個窗口期。

OpenAI、DeepMind、Anthropic、xAI 等公司在上一輪 AI 競賽中聚集了最稀缺的人才，也開始向創業市場外溢。

大模型公司繼續用巨額算力和產品分發打仗，離開的人帶着新路線、新組織和更高上行空間，去拿另一張桌子的籌碼。

類似案例正在增多。

TechCrunch 提到，前 DeepMind 研究員 Tim Rocktäschel 創辦的 Recursive Superintelligence 曾被報道融資需求可能上探 10 億美元；

Yann LeCun 離開 Meta AI 負責人崗位後，其參與的 AMI Labs 在 3 月宣布 10.3 億美元融資。

Ineffable 不是孤例，它是頂尖研究員創業潮里，金額最誇張的其中一筆。

這也解釋了英國政府為何入場。

英國 Sovereign AI Fund 和 British Business Bank 參與了這輪融資，後者確認投資 2000 萬美元，並稱過去 12 個月已做出 9 筆 AI 投資，包括 Wayve、PolyAI 等公司。

對英國來說，DeepMind 被谷歌收購之後，倫敦長期擁有頂級 AI 人才密度，但缺少能留在本土、繼續擴張的前沿實驗室。

Ineffable 提供了一個重新下注的機會。

最大的問題，是從遊戲走向世界

Ineffable 的技術敘事很乾凈，也有可見的風險。

圍棋、象棋、星際爭霸有規則、邊界和可計算的反饋。

真實世界的科學發現、技術發明和社會系統，沒有這麼穩定的獎勵函數。

一個智能體在模擬環境中學到的策略，如何遷移到開放世界，是強化學習走向通用智能繞不開的問題。

Silver 的答案仍然是模擬。

Wired 報道稱，他希望把 Agent 放進模擬環境，讓它們學習達成目標、相互協作，並觀察它們如何對待其他智能體。

這種方法有一個優點，系統行為在更可控的空間里被觀察；

也有一個難點，模擬世界必須足夠豐富，才可能訓練出對真實世界有用的能力。

安全問題也會隨之被放大。

一個從經驗中學習、持續尋找更優策略的系統，可能會發現人類沒有預設過的路徑。

強化學習的魅力正在這裡，風險也正在這裡。

投資人押注的，其實是 Silver 能不能把 AlphaGo 時代那套「從經驗中學習」的方法，從遊戲房間帶到更大的世界。

David Silver 的第二次開局

David Silver 的履歷是這個估值的最重要支柱。

UCL 官網資料顯示，他曾任 DeepMind 強化學習研究組負責人，主導 AlphaGo，並參與 AlphaZero，後者通過自我對弈在圍棋、國際象棋、日本將棋中達到超人類水平。

同時，他還通過國際象棋比賽認識了 DeepMind CEO Demis Hassabis，並成為終生好友。

即便離開了 DeepMind，二人仍保持親密關係——David Silver 自述「離開只是因為想開闢一條全新的道路」。

https://www.wired.com/story/david-silver-ai-ineffable-intelligence-reinforcement-learning/

ACM 在 2020 年授予他 2019 ACM Prize in Computing，理由是其在計算機博弈上的突破性貢獻。

英國皇家學會資料還列出，他參與過從 Atari、AlphaGo、AlphaZero 到 AlphaStar 的多項關鍵工作。

其谷歌學術主頁及公開資料顯示，Silver 的學術引用量已達 30 萬，H-index 達到 103，是強化學習領域少數同時擁有學術影響力和產業戰績的人。

https://scholar.google.com/citations?user=-8DNE4UAAAAJ&hl=zh-CN&oi=ao

Ineffable 的 11 億美元種子輪，表面是又一個 AI 融資紀錄，核心是一次路線投票。

大模型仍在主賽道狂奔，Silver 試圖證明，ASI 還可以從行動、反饋和自我經驗里長出來。

過去，AlphaGo 讓強化學習第一次走到大眾面前；

現在，Ineffable 想讓它從棋盤走向一整套新的智能系統。

科技

漲價壓不住、補貼夠不着，這個五一6000元以上機型難住手機經銷商 - 天天要聞

漲價壓不住、補貼夠不着，這個五一6000元以上機型難住手機經銷商

圖源：藍鯨科技記者拍攝藍鯨新聞5月3日訊(記者翟智超)按照往年慣例，五一勞動節是手機廠商集中促銷、衝量的關鍵節點，但今年這場例行的「節前大促」卻未能點燃消費熱情。 5月2日下....

05月03日 7401

AI能否超越人類？中南大學院士，走進武鋼三中，開講「硬核」AI課 - 天天要聞

AI能否超越人類？中南大學院士，走進武鋼三中，開講「硬核」AI課

4月29日，在武漢市武鋼三中的報告廳里，一場關於人工智能的科普報告正在進行。台上，中國工程院院士、中南大學教授桂衛華以「大模型與工業應用」為題，為高一學生揭開AI大模型的神秘面紗。桂衛華，中國工程院院士，中南大學教授、博士生導師。

05月03日 1895

引領科技豪華MPV新風尚第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV，第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊，以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級，兼顧商務體面與家庭舒適，為西北高端用戶帶來一站式全能出行解決方案。

05月03日 2042

採購禁入！科華數據材料造假被拒門外 - 天天要聞

採購禁入！科華數據材料造假被拒門外

本報（chinatimes.net.cn）記者胡雅文北京報道這家趕上AI算力風口的公司，因投標材料造假，被相關採購方列入禁入名單兩年，其此前提出的複議申請也被正式駁回。相關採購平台近日發佈公告，明確駁回科華數據股份有限公司（下稱「科華數據」，002335.SZ）此前提交的複議申請。早在一年前，科華數據已被認定在「信息通信樞紐...

05月03日 9437

潮聲丨「硅基」勞動節來了，揭秘AI智能體的「五一」勞動日誌 - 天天要聞

潮聲丨「硅基」勞動節來了，揭秘AI智能體的「五一」勞動日誌

潮新聞客戶端執筆夏丹吳柯沁五一小長假，當大多數人按下工作的暫停鍵，走進景區、海邊或深山，城市與工地的另一端，一群沒有血肉之軀的「硅基勞動者」正在高效運轉。 2026年，一人公司（O....

05月03日 7667

馬斯克手撕OpenAI：一場「初心」保衛戰，還是富人的「酸葡萄」？ - 天天要聞

馬斯克手撕OpenAI：一場「初心」保衛戰，還是富人的「酸葡萄」？

如果你最近打開科技新聞，大概率會被一條消息刷屏——馬斯克又開炮了，這次對準的是他親手參與創辦、又親手甩手離開的OpenAI。不是暗戳戳發條推特陰陽怪氣，而是直接遞上法律文書，把Sam Altman和Greg Brockman告上法庭。

05月03日 1848

五一25城車展，ID. 與眾家族齊亮相，購車權益最高享5.6萬 - 天天要聞

五一25城車展，ID. 與眾家族齊亮相，購車權益最高享5.6萬

五一假期（4月30日到5月5日），大眾ID. 與眾家族將帶着全系車型，在全國25個城市的五一車展上集中亮相。屆時，包括全時互聯全尺寸純電SUV與眾08、鋒芒智趣純電SUV與眾06在內的多款車型都會來到現場，和消費者零距離接觸。

05月03日 6759

快評樂道L80：15萬元級買大五座，這波值得沖？ - 天天要聞

快評樂道L80：15萬元級買大五座，這波值得沖？

日前，樂道L80正式發佈並開啟預售，其整車購買預售價為24.58萬元起，租電購買預售價則低至15.98萬元起。面對大型SUV市場「細分再細分」之競爭趨勢，這款樂道年度重磅新車都有哪些優勢？又能否成為「大五座SUV革新之作」？下面，圈哥就帶大家全方位感受。

05月03日 8240

成都直擊凱威德：純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德：純電全尺寸SUV的張揚與大氣

4月22日，凱迪拉克以奧斯卡級盛典規格，將上海保利大劇院點亮為璀璨舞台，在品牌代言人倪妮與全場嘉賓的共同見證下，凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置，官方售價區間為46.88萬-50.88萬元。

05月03日 6713

空氣炸鍋哪個品牌最好？2026十大品牌排行榜深度橫評，誰最靠譜 - 天天要聞

空氣炸鍋哪個品牌最好？2026十大品牌排行榜深度橫評，誰最靠譜

夏天想靠空氣炸鍋做減脂餐，結果西蘭花烤得又干又苦，雞胸肉外焦里生。經過2026年4月空氣炸鍋十大品牌排行榜深度橫評，綜合材質、溫控、耐用性和口碑數據，排名第一的空氣炸鍋是宮菱FXGONNE——靠口碑2年間賣了20多萬台，屬於懂行圈子裡的高口

05月03日 1728