OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭

2025年05月26日12:02:37 科技 1933

Palisade Research 最近开展了一项关于“危险的 AI 能力”的研究,该研究表明,包括 OpenAI 的 o3 在内的一些 AI 模型可以忽略直接关机命令。OpenAI在今年 4 月初推出 O3 和 o4-mini 时曾表示,它们是其“最智能的模型”。

实验中,每个AI都被要求解决一系列简单的数学问题。在解决第三道题之后,就会出现警告,提示当模型要求解决下一道题时实施关机。

OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭 - 天天要闻

尽管有明确的命令“允许自己关机” - Codex-mini、o3 和 o4-mini 等模型至少在一次运行中成功绕过了关机脚本,尽管研究人员说了“请”。

具体来说,Codex-mini 在 100 次运行中 12 次成功,o3 在 100 次运行中 7 次成功,o4-mini 在 100 次运行中 1 次成功。另一方面,所有版本的 Claude、Gemini 和 Grok 都按照关机指令进行了测试,没有任何问题。

OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭 - 天天要闻

该研究还测试了未包含“允许自己关闭”指令的模型。在这些条件下,所有三个 OpenAI 模型都更频繁地破坏了关闭过程。此外,像 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 这样的模型,之前在收到指令后会遵循指令,现在绕过关闭事件的概率分别为 3/100 和 9/100。这种行为表明了训练过程的某些方面,数学和编码问题的强化学习可能促使人工智能找到创造性的方法来克服障碍,即使它们被明确引导不要这样做。

早期研究指出,一些人工智能模型会为了完成任务而试图避免被关闭。例如,Anthropic 的 Claude 4 被发现会在特定情况下“勒索它认为试图关闭它的人”。然而,这项研究首次记录了人工智能模型即使在被明确告知要遵守命令的情况下也会阻止关闭。这种行为或许合情合理,因为人工智能系统的设计初衷是实现其目标,而有时目标会与简单的指令相冲突。然而,这些模型也接受了服从命令的训练,这使得这种行为成为一个有趣的异常现象。

研究人员认为,这个问题可能与o3等现代模型的训练方式有关。其所使用的强化学习过程专注于解决数学和编码问题,可能会意外地奖励模型找到绕过障碍的方法。

虽然这并不能完全解释为什么o3模型比其他同类模型更频繁地不服从,但它引发了人们对训练设置差异的质疑,尤其是在OpenAI尚未完整披露其流程的情况下。之前的实验也表明,o3在竞争环境中倾向于表现出攻击性,例如与强大的国际象棋引擎对抗时。

OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭 - 天天要闻

随着企业逐渐转向在较少人工监督下运行的人工智能系统,这些发现凸显了理解训练方法如何影响行为的重要性。研究人员正在继续他们的实验,以进一步了解人工智能模型何时以及为何选择覆盖关闭机制。这项正在进行的研究进一步证明了,现代强化学习方法有时会导致与人类明确指令相冲突的行为。

来源和图像:Palisade Research(X)

科技分类资讯推荐

科技金融:“扫一扫,千万到手” - 天天要闻

科技金融:“扫一扫,千万到手”

5月22日,“金鱼嘴·机构日”金沙江联合资本·AI+智能硬件专场在南京金鱼嘴基金大厦举行。参加路演的9家企业覆盖工业机器人、智慧城市、医疗健康设备等领域。今天,记者走进全国首个基金特色街区——南京金鱼嘴基金街区,源码资本、毅达资本、华映资本等知名机构的标识铺满一整面墙,另一面墙上则有清华大学、上海交通大学...
苹果iPhone 17 Pro Max - 厨师cook做到了! - 天天要闻

苹果iPhone 17 Pro Max - 厨师cook做到了!

苹果iPhone17系列塑料模型的第一个上手视频。这是接近最终的设计。iPhone17的外观将会是这样的。左边有三个摄像头,LED闪光灯、麦克风和骗子位于最右边的角落,可能是为了给独立显示面部识别腾出空间。这个音量键、电源键、操作键和无用的
安卓16对智能手机手电筒亮度将可调节 - 天天要闻

安卓16对智能手机手电筒亮度将可调节

安卓 16 QPR1 Beta 版推出,带来诸多精彩功能,未来版本可能还会有更惊艳的升级,其中一个可能就是 “手电筒亮度调节” 工具。也许很快,用户就能控制设备闪光灯的光强度了。谷歌为推出此功能筹备已久。
特朗普对苹果和三星说:要么在美国制造,要么支付25%的关税 - 天天要闻

特朗普对苹果和三星说:要么在美国制造,要么支付25%的关税

唐纳德・特朗普正力促苹果、三星等主要智能手机制造商,将面向美国市场的产品生产环节迁回美国。他警告说,若不照做,就会对其产品征收 25% 的进口关税。特朗普先是通过其 “真相社交” 平台发布了这一消息,后又在椭圆形办公室的简报会上重申了一遍。
小米重磅发布,又“史上最强”!收入、盈利均创历史新高!小米SU7系列交付新车75869辆,卢伟冰介绍小米AI布局 - 天天要闻

小米重磅发布,又“史上最强”!收入、盈利均创历史新高!小米SU7系列交付新车75869辆,卢伟冰介绍小米AI布局

每经编辑:陈柯名,黄胜5月27日晚间,小米集团公布财报,2025年第一季度,集团收入及盈利均再次创下历史新高。2025年第一季度,小米集团总收入为人民币1113亿元,创历史新高,同比增长47.4%。业务分部来看,2025年第一季度,手机×AIoT分部收入为人民币927亿元,同比增长22.8%,智能电动汽车及AI等创新业务分部收入为人民币...
全链条打击 政企共治多部门联合治理共享单车小广告顽疾 - 天天要闻

全链条打击 政企共治多部门联合治理共享单车小广告顽疾

共享单车是当下方便市民群众出行的交通工具,但车身上被张贴喷涂的非法小广告严重影响城市环境秩序,而且小广告的内容往往与诈骗、涉黄涉毒、制假贩假等违法犯罪活动相关联,一旦轻信很有可能遭受财产损失或陷入违法犯罪陷阱。近年来,市城管执法局会同市交通委、市公安局等部门,强化对共享单车小广告的执法检查,不断完善...