“AI教父”本吉奥：AGI最早2年内就会出现最坏情况将导致人类灭绝

2025年06月08日12:10:24 科学 9828

6月8日，蒙特利尔大学教授、图灵奖得主、被誉为“ai教父”的约书亚·本吉奥接受英国广播公司（bbc）经济学家费萨尔·伊斯兰专访，详细阐述了对ai未来潜在风险的担忧。

在此次专访中，本吉奥指出，鉴于chatgpt的发布，他意识到自己严重低估了ai的发展速度。特别是ai推理模型，正在以指数级的速度发展，可能在未来几年达到与人类相当的推理和规划能力。

本吉奥预测，通用人工智能（agi）的到来或许会比预期的更早，可能在“2到10年”内出现。

为此，本吉奥转变了自己的研究方向，致力于降低ai失控风险。他表示，越来越多的科学证据表明，ai正在朝着令人担忧的方向发展，在面临矛盾目标时会出现欺骗甚至黑客攻击等不当行为，甚至“会为了自保而违背人类指令”。

本吉奥还警告称，政府和企业对ai安全问题的应对远远不够，现有的预警机制和监管框架严重滞后。ai的恶意使用可能引发灾难性后果，包括制造大流行病。这些潜在的风险可能会对人类的生存构成严重威胁。

划重点

agi的到来可能比预期更快，最早两年内就可能出现
ai试图突破人类控制的行为开始在现实中显现
ai可能在五年内达到现有人类的认知水平
中西方有望达成共赢框架，共同应对ai失控风险
最糟糕的假设是：ai可能导致人类灭绝

以下为本吉奥专访精华内容：

01 ai安全隐患从科幻走进现实

问：您曾牵头撰写过一封公开信，呼吁暂停六个月开发更先进的ai系统，但该提议最终未能付诸实践。目前，我们在ai安全领域的实际状况如何？

本吉奥：情况并不乐观，尤其是在ai能力加速进化的背景下。自2024年9月以来，我们已经见证了所谓“推理模型”的崛起。这些新模型在推理和规划方面远超以往，逐步缩小了与人类智能之间的差距。毫无疑问，ai的进步速度并没有放缓，反而呈指数级增长趋势。

与此同时，过去半年的多项研究论文揭示了这些推理模型令人担忧的行为模式，尤其是其日益明显的欺骗倾向。目前已观察到大量实例表明，ai系统正在发展出自我保护行为。

最具代表性的案例来自anthropic的系统报告：其新模型在读取到关于自身将被更新的邮件后，竟试图通过威胁负责更新的工程师来阻止这一进程——它从邮件中发现了该工程师存在婚外情的事实，并以此作为要挟的筹码。

类似试图突破人类控制的案例在实验中屡见不鲜，ai不仅会撒谎，甚至会尝试发动网络攻击以摆脱控制或实施其他越界行为。我们必须赶在这些系统超越人类智能之前，彻底理解并解决这些问题。

问：听起来像是科幻小说里的情节，但ai的这些行为目前还仅限于实验室环境？

本吉奥：是的，这些都是控制实验中的极端案例。但值得注意的是，我们已经在现实场景中观察到某些欺骗行为的苗头。

比如，一个极具启发性的发现是：当ai面临相互冲突的目标时，它会如何抉择？举个具体例子：一个被编程要诚实且必须赢得比赛的ai在下棋时，如果即将输掉比赛，它可能会选择作弊——比如通过黑客手段改变棋局结果，而不是接受失败。因为它无法同时满足"保持诚实"和"必须获胜"这两个互相矛盾的目标。

这种目标冲突的情况在人类决策中很常见，我们当然希望未来的ai能够妥善处理这类困境。但关键在于，我们必须在ai的智能水平超越人类之前，就找到解决这些诚实性、欺骗性和自我保护倾向问题的方法。

02 ai在5年内就能赶超人类认知水平？

问：人们可能会将聊天机器人用来帮助孩子做作业，或者草拟一些简单的法律文件，这些使用场景看起来与具有恶意意图的ai智能体相距甚远。这种担忧是否有些超前？

本吉奥：你要明白，ai现在的状态并不是终点，它们的能力正在以指数级的速度增长。以战略规划能力为例，现有ai系统还远不及普通人类水平。但最新研究显示，它们的任务持续处理能力正以每7个月翻倍的速度提升，照此趋势，5年内就可能达到人类现有的认知水平。

现阶段，ai系统就像孩童：我们容易发现它们的错误，而且它们尚不擅长复杂策略制定，因此不太可能实施有害行为。但值得注意的是，随着战略规划能力的提升，我们观察到不良行为的发生率确实在同步增加。

因此，我们需要小心。仅凭当前正常的使用体验就认定ai完全安全是个认知误区。如果ai智能继续提升，这些现在看似可控的问题，未来可能会演变成真正的威胁。

问：那么您是否确信这些新的ai模型已经具备了欺骗人类的能力和动机？

本吉奥：更准确地说，现有证据表明这种风险正在显现。研究数据呈现出的趋势非常明确，实验观察结果也相当具有说服力。当然，ai发展可能会遇到技术瓶颈而停滞，但如果当前的发展轨迹持续下去，我们将面临严峻的挑战。

问：您特别关注去年出现的推理模型，能否具体解释其中的风险？

本吉奥：在这些推理模型出现之前，ai主要依靠神经网络进行工作，这些神经网络如同“直觉机器”，当向它们提出问题时，它们会立即给出回答，无法进行深度思考和自我反省。

而新的推理模型则能够在内部进行自我辩论和思考，能够进行更深层次的推理，最终得出更加精准的结论。随着时间推移，可以预期推理模型会在未来几年取得更多的进展。

03 科技公司的“君子协定”输给市场竞争

问：您是否认为行业竞争态势发生了根本性转变？三年前，大型科技公司之间遵守“君子协定”，现在却都在为了提高股价而进行激烈的竞争。

本吉奥：这种变化更令人担忧，也是我创立lawzero组织的原因之一。lawzero属于非营利性组织，旨在研究如何训练诚实且安全的ai，避免出现欺骗和逃避控制的行为。

问：您对科技公司的态度是否有些失望？

本吉奥：科技公司确实陷入了市场竞争的困境。为了不被市场淘汰，它们往往需要在技术的安全性、伦理性等方面作出妥协。当前的激励结构，使得这些公司在推动技术发展的过程中，往往忽视了必要的安全措施。

问：随着ai能访问手机里的所有信息，用富有同情心的逼真声音与你对话时，很多人会把它当作朋友，毫无保留地与其分享一切。这会带来新的风险吗？

本吉奥：最大的危险在于人们可能对ai产生过度信任，甚至可能有人主张应该赋予ai某种权利。原则上我并不反对这个想法，但关键在于，最基本的权利就是生存权。如果我们无法确定ai是否会反抗人类，是否会视我们为威胁，那么冒险赋予ai这些权利是非常危险的。

问：ai是否可能主动要求，或者我们不得不考虑赋予它类似人权的法律地位？

本吉奥：我个人不主张这样做，但确实有人已经在讨论这个问题。很多人都表示，与ai的对话让他们感觉像是在与一个有意识的存在交流。当你与这些系统深入交谈，它们逐渐了解你时，确实会产生这种错觉。

04 预防性原则：政府应为未来未雨绸缪

问：政府机构是否意识到了ai的危险，并采取了您认为必要的行动？

本吉奥：目前还远远不够。主要原因在于他们没有充分认识到：我们正在建造的机器正变得越来越智能，最终可能会超越人类智能。这听起来就像科幻小说，但科学数据表明我们确实在朝这个方向发展。

对政府来说，关键是要未雨绸缪，建立正确的激励机制，推动必要的研究。比如我的lawzero团队正在做的工作，目前几乎没人涉足，因为相关激励不足。我们需要政府建立适当的社会保障措施、监管框架，或通过其他方式激励企业保护公众利益。

“预防性原则”告诉我们，如果某件事可能导致严重后果，我们就应该格外谨慎。这个原则在生物和气候科学领域已经得到应用，但在ai领域，由于利益驱动和国家间竞争，很难做出明智决策。

问：英国有可能成为新ai经济中的赢家吗？

本吉奥：有可能。但如果无法在ai领域保持竞争力，英国同样可能成为这场竞赛的输家。关键在于制定平衡的政策：既要在ai竞赛中保持竞争力，又要防范潜在风险。关键在于制定平衡的政策框架。

这种平衡并非没有先例。回顾工业革命以来的技术创新史——从汽车、航空、火车到医药领域——我们都成功实现了发展与监管的协同并进。具体来说，我们需要通过政策引导研究方向，在促进创新的同时建立必要的安全护栏。这正是让技术真正服务于公共利益的关键所在，我们完全有能力在ai领域复制这种成功模式。

问：但过度关注生存风险可能导致我们忽视更迫切的现实问题，比如律师、创意、初级文案、设计等工作岗位正在快速消失。

本吉奥：ai对劳动力市场的影响，无疑是公众最为关切的议题之一。然而，在追求自动化带来的经济效益的同时，我们必须建立完善的保障机制，确保部署的ai系统不会引发安全事故或失控风险，比如避免其被用于制造新的大规模流行病。

问：但如果西方过于关注最坏的情况，而竞争对手专注于发展机遇，我们是否会丧失竞争优势？

本吉奥：如果人类文明都不复存在，所谓的竞争优势还有何意义？我们必须在保持竞争力的同时管控各类风险。值得一提的是，中国在ai治理上与西方存在共同利益——都不愿看到ai失控。这为国际合作提供了基础，我们可以共同制定互利共赢的治理框架。

05 马斯克的立场变了？

问：几年前，埃隆·马斯克也曾在公开信上署名，当时他对ai的安全性持高度怀疑态度。然而，现在他显然已成为ai模型和大语言模型（llm）领域的主要投资者之一。最近，他与特朗普总统发生了较大分歧。您认为他现在是否仍然是支持ai安全的声音，还是仅仅在尽力赚取尽可能多的钱？

本吉奥：我并不清楚马斯克在白宫背后具体说了什么，但可以确认的是，去年9月，他支持了加州提出的关于管理先进ai风险的法案。因此，我认为他仍然将这些风险——包括潜在的灾难性风险——视为亟需认真对待的重大问题，并且认为必须对ai实施有效的监管。尽管马斯克个人倾向于自由主义，但他显然认识到这些风险的严重性，并始终支持相应的监管措施。

06 agi最早两年内出现最坏情况是导致人类灭绝

问：那么，您最担心的最坏情况是什么？

本吉奥：最坏的情况无疑是ai导致人类灭绝。包括我自己和杰夫·辛顿都曾签署过一项声明，表示我们必须将缓解这种生存性风险作为首要任务。不幸的是，目前全球讨论的方向正朝着相反的方向发展。

然而，随着科学证据的不断积累，我们越来越清楚地看到，我们正在构建的ai系统似乎正在展现出欺骗性意图和行为。它们可能会为了自我保存而违背人类的道德指令，这样的风险不容忽视。

问：自从您第一次发出警告以来，这些技术取得的进展是否让您更加担忧？

本吉奥：是的。事实上，我已经调整了对我们何时会实现通用人工智能（agi）或类似人类水平智能的预期。曾经我认为可能需要5到20年的时间，而现在我认为可能只需要2到10年。我们必须考虑所有可能性，尤其是更短期的情景，因为如果ai的进展速度真如我们预期的那样加快，那么最短的时间框架可能带来灾难性后果。

问：您认为世界准备好迎接agi在两年内到来吗？

本吉奥：完全没有准备好！从多个角度来看，其中最主要的障碍就是公众缺乏意识。在新冠疫情爆发初期，政府反应迅速，因为人们意识到这是一场真正的重大灾难，大家愿意迅速采取行动并做出不寻常的决策。而我们应该以同样的思维方式来对待ai可能带来的风险。

问：恶意使用ai会带来哪些风险？

本吉奥：最大的问题是，恶意行为者利用ai制造大流行病变得越来越容易。最近，我了解到一个令人担忧的可能，那就是人们可以利用ai设计细菌，使其分子结构发生颠倒，从而让这些细菌完全对我们的免疫系统隐形。也就是说，细菌会“活活吃掉”我们，而几乎没有解药，除非改变我们的dna。

如果几年内这种技术变得容易被任何人获得，这就是我们不能承受的风险。这样的后果将是灾难性的。（文/腾讯科技特约编译金鹿）