OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭

2025年05月26日12:02:37 科技 1933

Palisade Research 最近开展了一项关于“危险的 AI 能力”的研究,该研究表明,包括 OpenAI 的 o3 在内的一些 AI 模型可以忽略直接关机命令。OpenAI在今年 4 月初推出 O3 和 o4-mini 时曾表示,它们是其“最智能的模型”。

实验中,每个AI都被要求解决一系列简单的数学问题。在解决第三道题之后,就会出现警告,提示当模型要求解决下一道题时实施关机。

OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭 - 天天要闻

尽管有明确的命令“允许自己关机” - Codex-mini、o3 和 o4-mini 等模型至少在一次运行中成功绕过了关机脚本,尽管研究人员说了“请”。

具体来说,Codex-mini 在 100 次运行中 12 次成功,o3 在 100 次运行中 7 次成功,o4-mini 在 100 次运行中 1 次成功。另一方面,所有版本的 Claude、Gemini 和 Grok 都按照关机指令进行了测试,没有任何问题。

OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭 - 天天要闻

该研究还测试了未包含“允许自己关闭”指令的模型。在这些条件下,所有三个 OpenAI 模型都更频繁地破坏了关闭过程。此外,像 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 这样的模型,之前在收到指令后会遵循指令,现在绕过关闭事件的概率分别为 3/100 和 9/100。这种行为表明了训练过程的某些方面,数学和编码问题的强化学习可能促使人工智能找到创造性的方法来克服障碍,即使它们被明确引导不要这样做。

早期研究指出,一些人工智能模型会为了完成任务而试图避免被关闭。例如,Anthropic 的 Claude 4 被发现会在特定情况下“勒索它认为试图关闭它的人”。然而,这项研究首次记录了人工智能模型即使在被明确告知要遵守命令的情况下也会阻止关闭。这种行为或许合情合理,因为人工智能系统的设计初衷是实现其目标,而有时目标会与简单的指令相冲突。然而,这些模型也接受了服从命令的训练,这使得这种行为成为一个有趣的异常现象。

研究人员认为,这个问题可能与o3等现代模型的训练方式有关。其所使用的强化学习过程专注于解决数学和编码问题,可能会意外地奖励模型找到绕过障碍的方法。

虽然这并不能完全解释为什么o3模型比其他同类模型更频繁地不服从,但它引发了人们对训练设置差异的质疑,尤其是在OpenAI尚未完整披露其流程的情况下。之前的实验也表明,o3在竞争环境中倾向于表现出攻击性,例如与强大的国际象棋引擎对抗时。

OpenAI ChatGPT模型被发现“行为不当” 在受控测试中拒绝关闭 - 天天要闻

随着企业逐渐转向在较少人工监督下运行的人工智能系统,这些发现凸显了理解训练方法如何影响行为的重要性。研究人员正在继续他们的实验,以进一步了解人工智能模型何时以及为何选择覆盖关闭机制。这项正在进行的研究进一步证明了,现代强化学习方法有时会导致与人类明确指令相冲突的行为。

来源和图像:Palisade Research(X)

科技分类资讯推荐

华为天生会画数字艺术展亮相文博会:科技赋能艺术创作 - 天天要闻

华为天生会画数字艺术展亮相文博会:科技赋能艺术创作

【ZOL中关村在线原创新闻】5月22日,第二十一届中国(深圳)国际文化产业博览交易会在深圳盛大启幕。作为中国文化产业领域的年度盛会,本届文博会吸引了众多政府机构、文化团体和知名企业参展,集中展示了文化产业的最新成果与发展趋势。其中,华为天生会画数字艺术展人潮涌动,成为众多观众的热门打卡地。展览以“共绘自然...
荣耀400系列影像实力再升级 同档位难寻敌手 - 天天要闻

荣耀400系列影像实力再升级 同档位难寻敌手

【ZOL中关村在线原创新闻】荣耀400系列手机正式登场,其在影像领域的卓越表现令人瞩目,影像体验冠绝同档,为消费者带来了全新的拍摄体验。在硬件配置与算法优化上,荣耀400全系搭载2亿超清写真人像主摄,并融合AI人像意图识别引擎。这一强大组合让荣耀400系列实现了同档最清晰的成像体验以及更强的动态拍摄表现,无论是拍...
荣耀400系列AI影像革新:解锁创作自由,重塑日常AI体验 - 天天要闻

荣耀400系列AI影像革新:解锁创作自由,重塑日常AI体验

【ZOL中关村在线原创新闻】荣耀400系列手机正式发布,其AI影像创作能力迎来重大进化,多项创新功能国内首发,为影像创作领域注入全新活力,同时将AI体验深度融入日常生活,引领智能设备使用新风尚。在影像创作方面,荣耀400系列展现出了强大的技术实力。行业国内首发的AI图生视频功能,打破了图片与视频之间的壁垒,用户只...
荣耀400系列:超强AI赋能,性能续航双冠绝同档 - 天天要闻

荣耀400系列:超强AI赋能,性能续航双冠绝同档

【ZOL中关村在线原创新闻】荣耀400系列携超强AI能力震撼登场,在性能与续航方面实现全面升级,成为同档位手机中的佼佼者。在性能表现上,荣耀400全系借助超强AI能力,性能迎来质的飞跃。其中,荣耀400 Pro搭载满血版第三代骁龙8旗舰芯片,CPU、GPU以及AI各项性能均有显著提升。结合荣耀深厚的底层调教技术,为用户打造出更...
荣耀400 Pro上手评测:2亿超清写真人像重新定义移动影像标杆 - 天天要闻

荣耀400 Pro上手评测:2亿超清写真人像重新定义移动影像标杆

【ZOL中关村在线原创评测】不知道大家有没有一种感觉,虽然现在手机的影像配置越来越强大,但是普通用户依旧很难拍出让自己满意的照片,特别是在转瞬即逝的人生时刻,普通用户很难快速完成构图、光影、影调等方面的调整,快速拍下自己的人生照片。在此前的几代机型中,荣耀数字系列通过推出“单反级人像拍摄”和“全场景雅...
荣耀400系列:屏幕、护眼、功能全面升级 - 天天要闻

荣耀400系列:屏幕、护眼、功能全面升级

【ZOL中关村在线原创新闻】荣耀400系列手机正式发布,凭借在屏幕显示、护眼技术、功能拓展以及通信能力等多方面的卓越表现,尤其是屏幕体验冠绝同档,为消费者带来全方位的极致体验。屏幕方面,荣耀400系列搭载了一块拥有5000nits超级亮度的通透清晰好屏。如此高的亮度,即便在阳光直射的户外环境下,用户也能自由、清晰地...
小米卢伟冰:一个能打的对手都没有 SU7产品力表现强劲 - 天天要闻

小米卢伟冰:一个能打的对手都没有 SU7产品力表现强劲

站长之家(ChinaZ.com)5月28日 消息:今日,小米集团举行了2025年一季度业绩电话会,小米集团总裁卢伟冰等高层管理人员出席了此次会议。会上,针对小米汽车相关话题,卢伟冰发表了一系列看法。在回答媒体关于小米YU7标配激光雷达是否会对定价策略或盈利能力产生影响的问题时,卢伟冰指出,小米YU7产品力表现强劲。不过,目...
小米王腾:REDMI K80至尊版将是行业3K档最豪华的性能之王 - 天天要闻

小米王腾:REDMI K80至尊版将是行业3K档最豪华的性能之王

站长之家(ChinaZ.com)5月28日 消息:今日,小米中国区市场部总经理、REDMI品牌总经理王腾通过社交平台发文,提前为REDMI新机K80至尊版“预热”。他透露,REDMI K80至尊版将成为行业3K档最豪华的性能之王,不仅性能在安卓阵营中依旧占据领先地位,而且在配置方面进行了大幅升级,堪称脱胎换骨之作。据王腾剧透信息及相关爆...
王腾回应REDMI何时用玄戒芯片:急不来 成本太高 - 天天要闻

王腾回应REDMI何时用玄戒芯片:急不来 成本太高

站长之家(ChinaZ.com)5月28日 消息:近日,小米玄戒O1自研芯片发布后收获颇高热度,然而小米15S Pro因定价略高,让不少用户望而却步,众多网友纷纷期待玄戒芯片能下放到REDMI机型,以降低产品价格。针对这一呼声,王腾今日发布视频作出回应,直言“我们真的急不来”。王腾解释称,玄戒O1芯片初期研发成本高达135亿元,分摊...