2025 年 6 月 6 日,第七屆北京智源大會在北京正式開幕,強化學習奠基 人、2025年圖靈獎得主、加拿大計算機科學家 Richard S. Sutton 以「 歡迎來到經驗時代」為題發表主旨演講,稱我們正處在人工智慧史上從「人類數據時代」邁向「經驗時代」的關鍵拐點。
Sutton指出,當今所有大型語言模型依賴互聯網文本和人工標註等「二手經驗」訓練,但高質量人類數據已被快速消耗殆盡,新增語料的邊際價值正急劇下降;近期多家研究也觀察到模型規模繼續膨脹卻收效遞減的「規模壁壘」現象,以及大量科技公司開始轉向合成數據。
在Sutton看來,要突破這一極限,智能體必須像嬰兒學習玩具、足球運動員在賽場決策那樣,通過與環境交互不斷生成並利用第一手經驗,而非單純模仿人類舊有文本。這一觀點呼應了Alan Turing1947年就已提出的預言——「我們想要的是一台能夠從經驗中學習的機器」——為人工智慧奠定了早期哲學基礎。Sutton與長期合作者Andrew Barto憑藉強化學習框架將這一理念工程化,並因此榮膺2024/25年度圖靈獎,強化學習也在AlphaGo、機器人控制等里程碑項目中反覆驗證其可行性。
他進一步闡釋「經驗時代」的技術特徵:智能體需要在真實或高保真模擬環境中持續運行,用環境回饋而非人類偏好作為原生獎勵信號,發展能夠長期復用的世界模型與記憶體系,並通過高並行交互大幅提升樣本效率。
超越技術維度,Sutton把視角拓展到社會治理,強調「去中心化合作」優於「中心化控制」。他警示,要求用單一目標束縛 AI 的論調與歷史上出於恐懼而試圖控制人類行為的思路驚人相似;真正的進步源於多元目標並存的生態系統,通過分散式激勵與競爭協作保持創新活力。
在他看來,讓智能體和人類都保持多樣化追求,不僅能降低單點失效與僵化風險,也為未來AI治理提供了更具韌性的框架。

劃重點:
-
當前大型模型已逼近「人類數據」邊界,唯有讓智能體通過與環境實時交互來生成可隨能力指數級擴張的原生數據,AI 才能邁入「經驗時代」 。
-
真正的智能應像嬰兒或運動員那樣在感知-行動循環中憑第一人稱經驗自我學習 。
-
強化學習範例(如 AlphaGo、AlphaZero)已證明從模擬經驗到現實經驗的演進路徑,未來智能體將依靠自生獎勵和世界模型實現持續自我提升 。
-
基於恐懼的「中心化控制」會扼殺創新,多主體維持差異化目標並通過去中心化合作實現雙贏,這是人類與 AI 共同繁榮的制度根基 。
-
面向超越人類的智能體與人機共生的遠景,我們應保持理性樂觀——這是一場需要幾十年耐心長跑的工程,其成敗取決於更強的持續學習演算法與開放共享的生態。
以下為演講全文:

從人類數據時代邁向經驗時代
剛才聽了Bengio教授的演講,現在確實是AI發展的激動人心的時代。
我想分享兩句引言,它們指向了我今天要表達的兩個重要觀點。第一句來自雷·庫茲韋爾:「智能是宇宙中最強大的現象。」這讓我們感受到AI的重要性以及今天AI領域正在發生的事情的重要性。
第二句來自阿蘭·圖靈,他說:"我們想要的是一台能夠從經驗中學習的機器。"他在1947年倫敦數學學會的演講中說了這句話。據我們所知,這是有史以來第一次關於人工智慧的公開演講。
當時還沒有AI這個領域,我認為這是第一次有人在公開場合展示AI。圖靈強調的是一台能夠從自己的第一人稱經驗中學習的機器,這就是我們今天真正在談論的內容。
現在,我們正處在人類數據時代。我們所有的人工智慧都是在人類生成的文本和來自互聯網的圖像上訓練的,然後被人類專家根據他們的偏好進行微調。整個系統都被訓練來預測人類的下一個詞,而不是試圖預測世界。
我認為我們開始達到人類數據的極限,幾乎達到這種策略的極限。高質量的人類數據源已經被消耗殆盡,而生成真正新的知識超出了模仿人類的方法範圍。要做真正新的事物,必須與世界互動。
因此我們正在進入經驗時代。AI需要一個新的數據源,這個數據源會隨著智能體變得更強而增長和改善。任何靜態數據集都將是不夠的。你可以從經驗中獲得這種數據,從與世界的第一人稱互動中獲得。
經驗意味著從進入感測器和輸出到執行器的數據,這是人類和其他動物學習的正常方式。觀察一個嬰兒與世界互動的例子:它依次與世界的不同部分互動,與不同的玩具互動,試圖學習如何使用那些玩具。
注意它正在做出決定來確定自己的輸入。它會與一個玩具互動一段時間,直到學會了所有能學的,然後繼續前進。隨著成長和變得更加複雜,它能從每樣東西中學到的量會改變,行為也會不同。它自己的行為決定了它的經驗和數據,這就是我們需要的。
再看其他例子,人類和動物在學習,比如踢足球、實現目標。想想流入足球運動員眼睛、耳朵和身體感覺器官的數據:一切都在變化,一切都在快速移動,流入大腦的數據流是巨大的。
運動員無法關注一切,必須做出快速決定來實現目標。這就是足球運動員的生活,或者動物在森林中飛行、逃離捕食者、揮動棒球棒擊球或進行對話的生活——都需要高帶寬信號處理,這構成了技能、感知和行動。這就是經驗,我指的不是任何抽象概念,只是指進出大腦的數據。
數據源會根據大腦的能力變得可變,就像兩個遊戲系統互動時一樣。隨著它們的改進,數據也變得更好和不同。這就是AlphaGo學會做出創造性移動的方式——著名的第37手。
這對於從經驗中學習至關重要,在這種情況下,經驗是通過模擬可能的移動和這些移動的後果產生的。在AlphaProof中也是類似的,這是在國際數學奧林匹克競賽中獲得獎牌的系統。在數學中,你可以看到操作的後果,並向前看很多步。
關於經驗思維模式:智能體與世界交換信號,這些就是它的經驗,然後從那種經驗中學習。更深層的觀察是,智能體知道的任何東西都是關於經驗的。即使提前給智能體一些知識,它仍然必須是關於經驗的——不是關於文字的,而是關於如果要做事情會發生什麼。
知識是關於經驗的,因此可以從經驗中學習。智能體的智能程度取決於它們能夠預測和控制其輸入信號的程度,特別是獎勵信號的預測和控制。
這就是AI應該關注的核心。智能是關於經驗的,是所有智能的焦點和基礎。強化學習領域就是基於這種思維模式,讓智能體成為能夠做決定、實現目標、與世界互動的一流智能體。

AI發展的三個時代
我們可以回顧現在所處的時間線。第一個時代是AlphaGo時代、Atari時代,這是模擬時代,強化學習智能體從模擬經驗中學習,變得更好,有AlphaGo和AlphaZero這些震撼世界的著名例子。然後我們進入了ChatGPT和大型語言模型的人類數據時代。我們現在可能正處於那個時代的末期,所有數據都來自人類。
接下來我們將進入經驗時代,通過與世界互動的經驗學習。我們在AlphaProof中看到了這一點的第一個暗示,當大型語言模型現在使用計算機、訪問API並實際在世界中採取行動時,我們也看到了這種暗示。
這是我關於AI未來視角的第一點。我的觀點是, 創造超級智能智能體和超級智能增強人類,對世界來說將是純粹的好事。 我不擔心安全問題,不擔心失業問題,這只是轉型和世界發展的正常部分。我認為這需要時間,需要幾十年,並且在那之後還會持續幾十年。這是一場馬拉松,不是短跑,但我們為此做好準備是明智的。
完全智能的智能體將必須從經驗中學習,這超出了我們當前的智能體能力。它們將作為世界知識的可定製介面。我們已經使用強化學習進入了這個新的經驗時代。然而,實現其全部力量將需要更好的深度學習演算法,這些演算法能夠持續學習。

去中心化合作與中心化控制的
發展哲學
現在我想轉換,談論發展問題。我們必須問這個基本問題:在智能體社會中,是只有一個每個人都分享的目標,還是有許多目標?
作為強化學習研究者,思考智能體問題對我來說很自然。在強化學習中很明顯,每個智能體都有自己的目標,有自己的獎勵信號進入大腦,試圖最大化那個目標。沒有理由要求不同智能體的獎勵信號必須相同。
在自然界中,每個動物都有類似的信號進入大腦,這實際上是在下丘腦中計算的,包括疼痛感測器和快樂感測器。在AI和自然界中,不同的智能體有不同的目標。我們可以談論它們如何分享目標,比如每個動物都關心食物,但一個動物的食物不是另一個動物的食物,這些是對稱的目標,不是相同的目標。人類也是如此,我們關心自己的家庭、食物和安全,超過共同目標。
反思我們的經濟體系如何最好地工作:我認為當人們有不同的目標和不同的能力時,它們工作得最好。目標不必衝突,但可以不同,差異是好的。我們的社會並不真正依賴於人們有相同的目標,而是依賴於人們追求個人角色然後互動。我們社會的明顯特點是我們可以和平共存,即使我們都想要不同的東西。我們交易、專業化、互動。
讓我做一些定義以便簡單討論。我定義去中心化為這種現象:有許多智能體,每個都追求自己的目標。這與中心化形成對比:許多智能體都被約束為有相同的目標。例如,蜜蜂群是中心化社會,有許多智能體,但它們都在追求蜂巢的目標,螞蟻也是如此。
去中心化意味著許多智能體,每個都追求自己的目標,每個都被允許有自己的目標。合作是當有不同目標的智能體互動以獲得互利時,每個智能體實現自己的目標,並通過互動促進自己的目標,形成雙贏關係。這是去中心化的合作。
我認為合作是我們的超能力。人類比任何其他動物合作得更多,合作由語言和金錢促進,這兩樣東西都是人類獨有的。人類最大的成功是我們的合作,比如經濟、市場和政府,這些是我們合作的方式。
我們最大的失敗是合作的失敗,比如戰爭、盜竊和腐敗。去中心化合作是社會組織的另一種觀點。在我看來,它比中心化觀點更優雅,去中心化合作更強大、更可持續、更靈活,對作弊者和異常值更有抵抗力。
必須承認,我們在合作方面仍然很糟糕。我們仍然有戰爭、盜竊和欺詐。我們必須努力合作,但合作並不總是可能的。它至少需要兩個值得信賴的智能體,總會有一些不值得信賴的。那些從不合作中獲得優勢的——作弊者、小偷、武器製造商和獨裁者,他們從不合作中受益。
合作需要機構來促進它,懲罰作弊者、欺詐者和小偷。中心化權威可以幫助合作,提供促進合作所需的機構。但那些中心化權威也可能在長期內毒害合作,當權威變得專制或僵化時。這種對比就是中心化控制和去中心化合作之間的差異。
如果觀察控制AI的呼籲和控制人類社會的呼籲,會發現這兩者驚人得相似。
關於AI,有很多呼籲。有暫停或停止AI研究的呼籲,有限制可以用來製造AI的算力的呼籲,有確保AI安全製造和要求披露的呼籲。
與此相似的是控制人類的呼籲。我們時代的大問題包括:言論應該自由嗎?人們可以被允許聽到其他人的觀點嗎?我們可以有自由貿易還是必須被控制?如何控制就業?如何控制金融和資本?是否對某些國家實施關稅和經濟制裁?
這基本上是一個社會問題:我們將如何處理人們有多個不同目標的現實?我們要去中心化嗎,還是要朝著中心化控制發展?
中心化控制的呼籲非常相似,都基於恐懼,都基於"我們對他們"的思維。在每個社會中,都有一些不能被信任的人,但也有通常可以被信任的大多數。
總結一下,我認為所有人類和AI的繁榮都來自去中心化合作。人類在合作方面很出色,但也有不足。合作會遇到阻礙和挫折,但它是世界上所有美好事物的源泉。我們必須尋找和支持合作,並尋求將其制度化。
現在,我必須呼籲人類使用自己與世界的經驗,用自己的眼睛觀察。我認為如果大家這樣做,很容易看到誰在呼籲不信任,誰在呼籲不合作。