2025 年 6 月 6 日,第七届北京智源大会在北京正式开幕,强化学习奠基 人、2025年图灵奖得主、加拿大计算机科学家 Richard S. Sutton 以“ 欢迎来到经验时代”为题发表主旨演讲,称我们正处在人工智能史上从“人类数据时代”迈向“经验时代”的关键拐点。
Sutton指出,当今所有大型语言模型依赖互联网文本和人工标注等“二手经验”训练,但高质量人类数据已被快速消耗殆尽,新增语料的边际价值正急剧下降;近期多家研究也观察到模型规模继续膨胀却收效递减的“规模壁垒”现象,以及大量科技公司开始转向合成数据。
在Sutton看来,要突破这一极限,智能体必须像婴儿学习玩具、足球运动员在赛场决策那样,通过与环境交互不断生成并利用第一手经验,而非单纯模仿人类旧有文本。这一观点呼应了Alan Turing1947年就已提出的预言——“我们想要的是一台能够从经验中学习的机器”——为人工智能奠定了早期哲学基础。Sutton与长期合作者Andrew Barto凭借强化学习框架将这一理念工程化,并因此荣膺2024/25年度图灵奖,强化学习也在AlphaGo、机器人控制等里程碑项目中反复验证其可行性。
他进一步阐释“经验时代”的技术特征:智能体需要在真实或高保真模拟环境中持续运行,用环境回馈而非人类偏好作为原生奖励信号,发展能够长期复用的世界模型与记忆体系,并通过高并行交互大幅提升样本效率。
超越技术维度,Sutton把视角拓展到社会治理,强调“去中心化合作”优于“中心化控制”。他警示,要求用单一目标束缚 AI 的论调与历史上出于恐惧而试图控制人类行为的思路惊人相似;真正的进步源于多元目标并存的生态系统,通过分布式激励与竞争协作保持创新活力。
在他看来,让智能体和人类都保持多样化追求,不仅能降低单点失效与僵化风险,也为未来AI治理提供了更具韧性的框架。

划重点:
-
当前大型模型已逼近“人类数据”边界,唯有让智能体通过与环境实时交互来生成可随能力指数级扩张的原生数据,AI 才能迈入“经验时代” 。
-
真正的智能应像婴儿或运动员那样在感知-行动循环中凭第一人称经验自我学习 。
-
强化学习范例(如 AlphaGo、AlphaZero)已证明从模拟经验到现实经验的演进路径,未来智能体将依靠自生奖励和世界模型实现持续自我提升 。
-
基于恐惧的“中心化控制”会扼杀创新,多主体维持差异化目标并通过去中心化合作实现双赢,这是人类与 AI 共同繁荣的制度根基 。
-
面向超越人类的智能体与人机共生的远景,我们应保持理性乐观——这是一场需要几十年耐心长跑的工程,其成败取决于更强的持续学习算法与开放共享的生态。
以下为演讲全文:

从人类数据时代迈向经验时代
刚才听了Bengio教授的演讲,现在确实是AI发展的激动人心的时代。
我想分享两句引言,它们指向了我今天要表达的两个重要观点。第一句来自雷·库兹韦尔:“智能是宇宙中最强大的现象。”这让我们感受到AI的重要性以及今天AI领域正在发生的事情的重要性。
第二句来自阿兰·图灵,他说:"我们想要的是一台能够从经验中学习的机器。"他在1947年伦敦数学学会的演讲中说了这句话。据我们所知,这是有史以来第一次关于人工智能的公开演讲。
当时还没有AI这个领域,我认为这是第一次有人在公开场合展示AI。图灵强调的是一台能够从自己的第一人称经验中学习的机器,这就是我们今天真正在谈论的内容。
现在,我们正处在人类数据时代。我们所有的人工智能都是在人类生成的文本和来自互联网的图像上训练的,然后被人类专家根据他们的偏好进行微调。整个系统都被训练来预测人类的下一个词,而不是试图预测世界。
我认为我们开始达到人类数据的极限,几乎达到这种策略的极限。高质量的人类数据源已经被消耗殆尽,而生成真正新的知识超出了模仿人类的方法范围。要做真正新的事物,必须与世界互动。
因此我们正在进入经验时代。AI需要一个新的数据源,这个数据源会随着智能体变得更强而增长和改善。任何静态数据集都将是不够的。你可以从经验中获得这种数据,从与世界的第一人称互动中获得。
经验意味着从进入传感器和输出到执行器的数据,这是人类和其他动物学习的正常方式。观察一个婴儿与世界互动的例子:它依次与世界的不同部分互动,与不同的玩具互动,试图学习如何使用那些玩具。
注意它正在做出决定来确定自己的输入。它会与一个玩具互动一段时间,直到学会了所有能学的,然后继续前进。随着成长和变得更加复杂,它能从每样东西中学到的量会改变,行为也会不同。它自己的行为决定了它的经验和数据,这就是我们需要的。
再看其他例子,人类和动物在学习,比如踢足球、实现目标。想想流入足球运动员眼睛、耳朵和身体感觉器官的数据:一切都在变化,一切都在快速移动,流入大脑的数据流是巨大的。
运动员无法关注一切,必须做出快速决定来实现目标。这就是足球运动员的生活,或者动物在森林中飞行、逃离捕食者、挥动棒球棒击球或进行对话的生活——都需要高带宽信号处理,这构成了技能、感知和行动。这就是经验,我指的不是任何抽象概念,只是指进出大脑的数据。
数据源会根据大脑的能力变得可变,就像两个游戏系统互动时一样。随着它们的改进,数据也变得更好和不同。这就是AlphaGo学会做出创造性移动的方式——著名的第37手。
这对于从经验中学习至关重要,在这种情况下,经验是通过模拟可能的移动和这些移动的后果产生的。在AlphaProof中也是类似的,这是在国际数学奥林匹克竞赛中获得奖牌的系统。在数学中,你可以看到操作的后果,并向前看很多步。
关于经验思维模式:智能体与世界交换信号,这些就是它的经验,然后从那种经验中学习。更深层的观察是,智能体知道的任何东西都是关于经验的。即使提前给智能体一些知识,它仍然必须是关于经验的——不是关于文字的,而是关于如果要做事情会发生什么。
知识是关于经验的,因此可以从经验中学习。智能体的智能程度取决于它们能够预测和控制其输入信号的程度,特别是奖励信号的预测和控制。
这就是AI应该关注的核心。智能是关于经验的,是所有智能的焦点和基础。强化学习领域就是基于这种思维模式,让智能体成为能够做决定、实现目标、与世界互动的一流智能体。

AI发展的三个时代
我们可以回顾现在所处的时间线。第一个时代是AlphaGo时代、Atari时代,这是模拟时代,强化学习智能体从模拟经验中学习,变得更好,有AlphaGo和AlphaZero这些震撼世界的著名例子。然后我们进入了ChatGPT和大型语言模型的人类数据时代。我们现在可能正处于那个时代的末期,所有数据都来自人类。
接下来我们将进入经验时代,通过与世界互动的经验学习。我们在AlphaProof中看到了这一点的第一个暗示,当大型语言模型现在使用计算机、访问API并实际在世界中采取行动时,我们也看到了这种暗示。
这是我关于AI未来视角的第一点。我的观点是, 创造超级智能智能体和超级智能增强人类,对世界来说将是纯粹的好事。 我不担心安全问题,不担心失业问题,这只是转型和世界发展的正常部分。我认为这需要时间,需要几十年,并且在那之后还会持续几十年。这是一场马拉松,不是短跑,但我们为此做好准备是明智的。
完全智能的智能体将必须从经验中学习,这超出了我们当前的智能体能力。它们将作为世界知识的可定制接口。我们已经使用强化学习进入了这个新的经验时代。然而,实现其全部力量将需要更好的深度学习算法,这些算法能够持续学习。

去中心化合作与中心化控制的
发展哲学
现在我想转换,谈论发展问题。我们必须问这个基本问题:在智能体社会中,是只有一个每个人都分享的目标,还是有许多目标?
作为强化学习研究者,思考智能体问题对我来说很自然。在强化学习中很明显,每个智能体都有自己的目标,有自己的奖励信号进入大脑,试图最大化那个目标。没有理由要求不同智能体的奖励信号必须相同。
在自然界中,每个动物都有类似的信号进入大脑,这实际上是在下丘脑中计算的,包括疼痛传感器和快乐传感器。在AI和自然界中,不同的智能体有不同的目标。我们可以谈论它们如何分享目标,比如每个动物都关心食物,但一个动物的食物不是另一个动物的食物,这些是对称的目标,不是相同的目标。人类也是如此,我们关心自己的家庭、食物和安全,超过共同目标。
反思我们的经济体系如何最好地工作:我认为当人们有不同的目标和不同的能力时,它们工作得最好。目标不必冲突,但可以不同,差异是好的。我们的社会并不真正依赖于人们有相同的目标,而是依赖于人们追求个人角色然后互动。我们社会的明显特点是我们可以和平共存,即使我们都想要不同的东西。我们交易、专业化、互动。
让我做一些定义以便简单讨论。我定义去中心化为这种现象:有许多智能体,每个都追求自己的目标。这与中心化形成对比:许多智能体都被约束为有相同的目标。例如,蜜蜂群是中心化社会,有许多智能体,但它们都在追求蜂巢的目标,蚂蚁也是如此。
去中心化意味着许多智能体,每个都追求自己的目标,每个都被允许有自己的目标。合作是当有不同目标的智能体互动以获得互利时,每个智能体实现自己的目标,并通过互动促进自己的目标,形成双赢关系。这是去中心化的合作。
我认为合作是我们的超能力。人类比任何其他动物合作得更多,合作由语言和金钱促进,这两样东西都是人类独有的。人类最大的成功是我们的合作,比如经济、市场和政府,这些是我们合作的方式。
我们最大的失败是合作的失败,比如战争、盗窃和腐败。去中心化合作是社会组织的另一种观点。在我看来,它比中心化观点更优雅,去中心化合作更强大、更可持续、更灵活,对作弊者和异常值更有抵抗力。
必须承认,我们在合作方面仍然很糟糕。我们仍然有战争、盗窃和欺诈。我们必须努力合作,但合作并不总是可能的。它至少需要两个值得信赖的智能体,总会有一些不值得信赖的。那些从不合作中获得优势的——作弊者、小偷、武器制造商和独裁者,他们从不合作中受益。
合作需要机构来促进它,惩罚作弊者、欺诈者和小偷。中心化权威可以帮助合作,提供促进合作所需的机构。但那些中心化权威也可能在长期内毒害合作,当权威变得专制或僵化时。这种对比就是中心化控制和去中心化合作之间的差异。
如果观察控制AI的呼吁和控制人类社会的呼吁,会发现这两者惊人得相似。
关于AI,有很多呼吁。有暂停或停止AI研究的呼吁,有限制可以用来制造AI的算力的呼吁,有确保AI安全制造和要求披露的呼吁。
与此相似的是控制人类的呼吁。我们时代的大问题包括:言论应该自由吗?人们可以被允许听到其他人的观点吗?我们可以有自由贸易还是必须被控制?如何控制就业?如何控制金融和资本?是否对某些国家实施关税和经济制裁?
这基本上是一个社会问题:我们将如何处理人们有多个不同目标的现实?我们要去中心化吗,还是要朝着中心化控制发展?
中心化控制的呼吁非常相似,都基于恐惧,都基于"我们对他们"的思维。在每个社会中,都有一些不能被信任的人,但也有通常可以被信任的大多数。
总结一下,我认为所有人类和AI的繁荣都来自去中心化合作。人类在合作方面很出色,但也有不足。合作会遇到阻碍和挫折,但它是世界上所有美好事物的源泉。我们必须寻找和支持合作,并寻求将其制度化。
现在,我必须呼吁人类使用自己与世界的经验,用自己的眼睛观察。我认为如果大家这样做,很容易看到谁在呼吁不信任,谁在呼吁不合作。