OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭

2025年05月26日12:02:37 科技 1933

Palisade Research 最近开展了一项关于“危险的 AI 能力”的研究,该研究表明,包括 OpenAI 的 o3 在内的一些 AI 模型可以忽略直接关机命令。OpenAI在今年 4 月初推出 O3 和 o4-mini 时曾表示,它们是其“最智能的模型”。

实验中,每个AI都被要求解决一系列简单的数学问题。在解决第三道题之后,就会出现警告,提示当模型要求解决下一道题时实施关机。

OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭 - 天天要闻

尽管有明确的命令“允许自己关机” - Codex-mini、o3 和 o4-mini 等模型至少在一次运行中成功绕过了关机脚本,尽管研究人员说了“请”。

具体来说,Codex-mini 在 100 次运行中 12 次成功,o3 在 100 次运行中 7 次成功,o4-mini 在 100 次运行中 1 次成功。另一方面,所有版本的 Claude、Gemini 和 Grok 都按照关机指令进行了测试,没有任何问题。

OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭 - 天天要闻

该研究还测试了未包含“允许自己关闭”指令的模型。在这些条件下,所有三个 OpenAI 模型都更频繁地破坏了关闭过程。此外,像 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 这样的模型,之前在收到指令后会遵循指令,现在绕过关闭事件的概率分别为 3/100 和 9/100。这种行为表明了训练过程的某些方面,数学和编码问题的强化学习可能促使人工智能找到创造性的方法来克服障碍,即使它们被明确引导不要这样做。

早期研究指出,一些人工智能模型会为了完成任务而试图避免被关闭。例如,Anthropic 的 Claude 4 被发现会在特定情况下“勒索它认为试图关闭它的人”。然而,这项研究首次记录了人工智能模型即使在被明确告知要遵守命令的情况下也会阻止关闭。这种行为或许合情合理,因为人工智能系统的设计初衷是实现其目标,而有时目标会与简单的指令相冲突。然而,这些模型也接受了服从命令的训练,这使得这种行为成为一个有趣的异常现象。

研究人员认为,这个问题可能与o3等现代模型的训练方式有关。其所使用的强化学习过程专注于解决数学和编码问题,可能会意外地奖励模型找到绕过障碍的方法。

虽然这并不能完全解释为什么o3模型比其他同类模型更频繁地不服从,但它引发了人们对训练设置差异的质疑,尤其是在OpenAI尚未完整披露其流程的情况下。之前的实验也表明,o3在竞争环境中倾向于表现出攻击性,例如与强大的国际象棋引擎对抗时。

OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭 - 天天要闻

随着企业逐渐转向在较少人工监督下运行的人工智能系统,这些发现凸显了理解训练方法如何影响行为的重要性。研究人员正在继续他们的实验,以进一步了解人工智能模型何时以及为何选择覆盖关闭机制。这项正在进行的研究进一步证明了,现代强化学习方法有时会导致与人类明确指令相冲突的行为。

来源和图像:Palisade Research(X)

科技分类资讯推荐

英特尔黯然“败走”车圈 - 天天要闻

英特尔黯然“败走”车圈

作者 | 柴旭晨编辑 | 周智宇三个月前的上海车展,刚刚掷出SoC产品并宣布一系列战略合作的芯片巨头英特尔,如今意外决定要“放弃”汽车业务了。近日有消息显示,英特尔对内宣布将关闭汽车业务,并裁撤该部门的大部分员工,以加速成本削减。对此,英特尔向外界回应称,公司正重新聚焦战略重心,“作为这项计划的一部分,我们...
威马、高合等来救命钱,但江湖已变 - 天天要闻

威马、高合等来救命钱,但江湖已变

汽车圈“价格战”仍未熄火,多方下场加强调控。最近一场由60天账期引发的“反内卷热浪”正在席卷汽车江湖。虽然缩短账期看似是皆大欢喜,但不是每家车企都能玩得起,对于那些亏损多年的新势力来说,目前正需要钱的节骨眼上遇到了严厉政策,可谓是压力山大。
Meta据称正密洽AI语音黑马PlayAI 抢人抢技术两手抓 - 天天要闻

Meta据称正密洽AI语音黑马PlayAI 抢人抢技术两手抓

来源:财联社财联社6月26日讯(编辑 赵昊)知情人士透露,美国科技巨头Meta Platforms正在就收购人工智能(AI)语音初创公司PlayAI进入深入谈判。知情人士表示,Meta预计将收购PlayAI的技术资产,并吸纳部分的员工。
小米汽车,为什么出一款火一款? - 天天要闻

小米汽车,为什么出一款火一款?

小米YU7一个小时大定超过了289000辆。起初,我以为是2万多辆了,后来仔细数了一下,发现少数了一个0。一个小时大定将近30万辆,这个数字,我觉得让谁听都觉得很夸张。当然了,这些订单中,我预估会有大量黄牛、车贩子为了转卖订单赚差价而下定。
小米YU7开售18小时,锁单24万台,收入超680亿元 - 天天要闻

小米YU7开售18小时,锁单24万台,收入超680亿元

DoNews6月27日消息,刚刚,小米汽车宣布,开售18小时,小米YU7锁单量已突破24万台。小米YU7标准版售价为25.35万元,若这24万台订单均以标准版的售价来计算,小米汽车的收入可达608亿元。根据小米汽车官方公布的数据,小米YU7开售3分钟,大定便突破20万台;开售1小时,大定突破28.9万台。...