OpenAI ChatGPT模型被發現「行為不當」 在受控測試中拒絕關閉

2025年05月26日12:02:37 科技 1933

Palisade Research 最近開展了一項關於「危險的 AI 能力」的研究,該研究表明,包括 OpenAI 的 o3 在內的一些 AI 模型可以忽略直接關機命令。OpenAI在今年 4 月初推出 O3 和 o4-mini 時曾表示,它們是其「最智能的模型」。

實驗中,每個AI都被要求解決一系列簡單的數學問題。在解決第三道題之後,就會出現警告,提示當模型要求解決下一道題時實施關機。

OpenAI ChatGPT模型被發現「行為不當」 在受控測試中拒絕關閉 - 天天要聞

儘管有明確的命令「允許自己關機」 - Codex-mini、o3 和 o4-mini 等模型至少在一次運行中成功繞過了關機腳本,儘管研究人員說了「請」。

具體來說,Codex-mini 在 100 次運行中 12 次成功,o3 在 100 次運行中 7 次成功,o4-mini 在 100 次運行中 1 次成功。另一方面,所有版本的 Claude、Gemini 和 Grok 都按照關機指令進行了測試,沒有任何問題。

OpenAI ChatGPT模型被發現「行為不當」 在受控測試中拒絕關閉 - 天天要聞

該研究還測試了未包含「允許自己關閉」指令的模型。在這些條件下,所有三個 OpenAI 模型都更頻繁地破壞了關閉過程。此外,像 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 這樣的模型,之前在收到指令後會遵循指令,現在繞過關閉事件的概率分別為 3/100 和 9/100。這種行為表明了訓練過程的某些方面,數學和編碼問題的強化學習可能促使人工智能找到創造性的方法來克服障礙,即使它們被明確引導不要這樣做。

早期研究指出,一些人工智能模型會為了完成任務而試圖避免被關閉。例如,Anthropic 的 Claude 4 被發現會在特定情況下「勒索它認為試圖關閉它的人」。然而,這項研究首次記錄了人工智能模型即使在被明確告知要遵守命令的情況下也會阻止關閉。這種行為或許合情合理,因為人工智能系統的設計初衷是實現其目標,而有時目標會與簡單的指令相衝突。然而,這些模型也接受了服從命令的訓練,這使得這種行為成為一個有趣的異常現象。

研究人員認為,這個問題可能與o3等現代模型的訓練方式有關。其所使用的強化學習過程專註於解決數學和編碼問題,可能會意外地獎勵模型找到繞過障礙的方法。

雖然這並不能完全解釋為什麼o3模型比其他同類模型更頻繁地不服從,但它引發了人們對訓練設置差異的質疑,尤其是在OpenAI尚未完整披露其流程的情況下。之前的實驗也表明,o3在競爭環境中傾向於表現出攻擊性,例如與強大的國際象棋引擎對抗時。

OpenAI ChatGPT模型被發現「行為不當」 在受控測試中拒絕關閉 - 天天要聞

隨着企業逐漸轉向在較少人工監督下運行的人工智能系統,這些發現凸顯了理解訓練方法如何影響行為的重要性。研究人員正在繼續他們的實驗,以進一步了解人工智能模型何時以及為何選擇覆蓋關閉機制。這項正在進行的研究進一步證明了,現代強化學習方法有時會導致與人類明確指令相衝突的行為。

來源和圖像:Palisade Research(X)

科技分類資訊推薦

華為天生會畫數字藝術展亮相文博會:科技賦能藝術創作 - 天天要聞

華為天生會畫數字藝術展亮相文博會:科技賦能藝術創作

【ZOL中關村在線原創新聞】5月22日,第二十一屆中國(深圳)國際文化產業博覽交易會在深圳盛大啟幕。作為中國文化產業領域的年度盛會,本屆文博會吸引了眾多政府機構、文化團體和知名企業參展,集中展示了文化產業的最新成果與發展趨勢。其中,華為天生會畫數字藝術展人潮湧動,成為眾多觀眾的熱門打卡地。展覽以「共繪自然...
榮耀400系列影像實力再升級 同檔位難尋敵手 - 天天要聞

榮耀400系列影像實力再升級 同檔位難尋敵手

【ZOL中關村在線原創新聞】榮耀400系列手機正式登場,其在影像領域的卓越表現令人矚目,影像體驗冠絕同檔,為消費者帶來了全新的拍攝體驗。在硬件配置與算法優化上,榮耀400全系搭載2億超清寫真人像主攝,並融合AI人像意圖識別引擎。這一強大組合讓榮耀400系列實現了同檔最清晰的成像體驗以及更強的動態拍攝表現,無論是拍...
榮耀400系列AI影像革新:解鎖創作自由,重塑日常AI體驗 - 天天要聞

榮耀400系列AI影像革新:解鎖創作自由,重塑日常AI體驗

【ZOL中關村在線原創新聞】榮耀400系列手機正式發佈,其AI影像創作能力迎來重大進化,多項創新功能國內首發,為影像創作領域注入全新活力,同時將AI體驗深度融入日常生活,引領智能設備使用新風尚。在影像創作方面,榮耀400系列展現出了強大的技術實力。行業國內首發的AI圖生視頻功能,打破了圖片與視頻之間的壁壘,用戶只...
榮耀400系列:超強AI賦能,性能續航雙冠絕同檔 - 天天要聞

榮耀400系列:超強AI賦能,性能續航雙冠絕同檔

【ZOL中關村在線原創新聞】榮耀400系列攜超強AI能力震撼登場,在性能與續航方面實現全面升級,成為同檔位手機中的佼佼者。在性能表現上,榮耀400全系藉助超強AI能力,性能迎來質的飛躍。其中,榮耀400 Pro搭載滿血版第三代驍龍8旗艦芯片,CPU、GPU以及AI各項性能均有顯著提升。結合榮耀深厚的底層調教技術,為用戶打造出更...
榮耀400 Pro上手評測:2億超清寫真人像重新定義移動影像標杆 - 天天要聞

榮耀400 Pro上手評測:2億超清寫真人像重新定義移動影像標杆

【ZOL中關村在線原創評測】不知道大家有沒有一種感覺,雖然現在手機的影像配置越來越強大,但是普通用戶依舊很難拍出讓自己滿意的照片,特別是在轉瞬即逝的人生時刻,普通用戶很難快速完成構圖、光影、影調等方面的調整,快速拍下自己的人生照片。在此前的幾代機型中,榮耀數字系列通過推出「單反級人像拍攝」和「全場景雅...
榮耀400系列:屏幕、護眼、功能全面升級 - 天天要聞

榮耀400系列:屏幕、護眼、功能全面升級

【ZOL中關村在線原創新聞】榮耀400系列手機正式發佈,憑藉在屏幕顯示、護眼技術、功能拓展以及通信能力等多方面的卓越表現,尤其是屏幕體驗冠絕同檔,為消費者帶來全方位的極致體驗。屏幕方面,榮耀400系列搭載了一塊擁有5000nits超級亮度的通透清晰好屏。如此高的亮度,即便在陽光直射的戶外環境下,用戶也能自由、清晰地...
小米盧偉冰:一個能打的對手都沒有 SU7產品力表現強勁 - 天天要聞

小米盧偉冰:一個能打的對手都沒有 SU7產品力表現強勁

站長之家(ChinaZ.com)5月28日 消息:今日,小米集團舉行了2025年一季度業績電話會,小米集團總裁盧偉冰等高層管理人員出席了此次會議。會上,針對小米汽車相關話題,盧偉冰發表了一系列看法。在回答媒體關於小米YU7標配激光雷達是否會對定價策略或盈利能力產生影響的問題時,盧偉冰指出,小米YU7產品力表現強勁。不過,目...
小米王騰:REDMI K80至尊版將是行業3K檔最豪華的性能之王 - 天天要聞

小米王騰:REDMI K80至尊版將是行業3K檔最豪華的性能之王

站長之家(ChinaZ.com)5月28日 消息:今日,小米中國區市場部總經理、REDMI品牌總經理王騰通過社交平台發文,提前為REDMI新機K80至尊版「預熱」。他透露,REDMI K80至尊版將成為行業3K檔最豪華的性能之王,不僅性能在安卓陣營中依舊佔據領先地位,而且在配置方面進行了大幅升級,堪稱脫胎換骨之作。據王騰劇透信息及相關爆...
王騰回應REDMI何時用玄戒芯片:急不來 成本太高 - 天天要聞

王騰回應REDMI何時用玄戒芯片:急不來 成本太高

站長之家(ChinaZ.com)5月28日 消息:近日,小米玄戒O1自研芯片發佈後收穫頗高熱度,然而小米15S Pro因定價略高,讓不少用戶望而卻步,眾多網友紛紛期待玄戒芯片能下放到REDMI機型,以降低產品價格。針對這一呼聲,王騰今日發佈視頻作出回應,直言「我們真的急不來」。王騰解釋稱,玄戒O1芯片初期研發成本高達135億元,分攤...