OpenAI ChatGPT模型被發現“行為不當” 在受控測試中拒絕關閉

2025年05月26日12:02:37 科技 1933

Palisade Research 最近開展了一項關於“危險的 AI 能力”的研究,該研究表明,包括 OpenAI 的 o3 在內的一些 AI 模型可以忽略直接關機命令。OpenAI在今年 4 月初推出 O3 和 o4-mini 時曾表示,它們是其“最智能的模型”。

實驗中,每個AI都被要求解決一系列簡單的數學問題。在解決第三道題之後,就會出現警告,提示當模型要求解決下一道題時實施關機。

OpenAI ChatGPT模型被發現“行為不當” 在受控測試中拒絕關閉 - 天天要聞

儘管有明確的命令“允許自己關機” - Codex-mini、o3 和 o4-mini 等模型至少在一次運行中成功繞過了關機腳本,儘管研究人員說了“請”。

具體來說,Codex-mini 在 100 次運行中 12 次成功,o3 在 100 次運行中 7 次成功,o4-mini 在 100 次運行中 1 次成功。另一方面,所有版本的 Claude、Gemini 和 Grok 都按照關機指令進行了測試,沒有任何問題。

OpenAI ChatGPT模型被發現“行為不當” 在受控測試中拒絕關閉 - 天天要聞

該研究還測試了未包含“允許自己關閉”指令的模型。在這些條件下,所有三個 OpenAI 模型都更頻繁地破壞了關閉過程。此外,像 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 這樣的模型,之前在收到指令後會遵循指令,現在繞過關閉事件的概率分別為 3/100 和 9/100。這種行為表明了訓練過程的某些方面,數學和編碼問題的強化學習可能促使人工智能找到創造性的方法來克服障礙,即使它們被明確引導不要這樣做。

早期研究指出,一些人工智能模型會為了完成任務而試圖避免被關閉。例如,Anthropic 的 Claude 4 被發現會在特定情況下“勒索它認為試圖關閉它的人”。然而,這項研究首次記錄了人工智能模型即使在被明確告知要遵守命令的情況下也會阻止關閉。這種行為或許合情合理,因為人工智能系統的設計初衷是實現其目標,而有時目標會與簡單的指令相衝突。然而,這些模型也接受了服從命令的訓練,這使得這種行為成為一個有趣的異常現象。

研究人員認為,這個問題可能與o3等現代模型的訓練方式有關。其所使用的強化學習過程專註於解決數學和編碼問題,可能會意外地獎勵模型找到繞過障礙的方法。

雖然這並不能完全解釋為什麼o3模型比其他同類模型更頻繁地不服從,但它引發了人們對訓練設置差異的質疑,尤其是在OpenAI尚未完整披露其流程的情況下。之前的實驗也表明,o3在競爭環境中傾向於表現出攻擊性,例如與強大的國際象棋引擎對抗時。

OpenAI ChatGPT模型被發現“行為不當” 在受控測試中拒絕關閉 - 天天要聞

隨着企業逐漸轉向在較少人工監督下運行的人工智能系統,這些發現凸顯了理解訓練方法如何影響行為的重要性。研究人員正在繼續他們的實驗,以進一步了解人工智能模型何時以及為何選擇覆蓋關閉機制。這項正在進行的研究進一步證明了,現代強化學習方法有時會導致與人類明確指令相衝突的行為。

來源和圖像:Palisade Research(X)

科技分類資訊推薦

江南多地酷熱將持續 7月初南北方高溫連成片 - 天天要聞

江南多地酷熱將持續 7月初南北方高溫連成片

今天(6月27日)至下周,隨着副熱帶高壓西伸增強,江南高溫天氣發展,長江中下游多地悶熱升級,上海、杭州等地高溫將超長待機。不僅是南方,7月初,華北、黃淮多地也將加入高溫行列,且濕度較大,體感悶熱。公眾需及時補水降溫,盡量避開午後氣溫較高時段出行。昨天,新疆仍是高溫的核心影響區域,于田打破當地6月最高氣溫...
美秘談伊核協議草案曝光:特朗普放出一堆誘餌;伊朗就協議提了三個條件 - 天天要聞

美秘談伊核協議草案曝光:特朗普放出一堆誘餌;伊朗就協議提了三個條件

當地時間6月25日,美國總統特朗普稱,美國與伊朗下周將舉行會談,並可能簽署一項協議。據環球網等報道,美國媒體曝光初步草案,內容涉及美國願意給伊朗哪些好處,以推動伊朗重返核談判,並換取後者不發展核武器。但伊朗方面表態強硬,談判前景仍存變數。美國向伊朗“敬酒”6月25日,特朗普在荷蘭海牙出席北約峰會後舉行記者...
華為將於7月10日全球發布Pura 80系列 已獲多項認證 - 天天要聞

華為將於7月10日全球發布Pura 80系列 已獲多項認證

【CNMO科技消息】根據外媒報道,華為已確認Pura 80系列將於7月10日全球發布。目前,Pura 80系列已經出現在TUV、EEC和藍牙SIG的數據庫中。華為Pura 80 Ultra 據CNMO了解,一款神秘機型的型號為LMR-LX9,已獲得歐洲EEC認證、TUV認證和藍牙SIG認證。Pura 80 Pro型號為LMR-AL00,而Pro+和Ultra
千萬元支持、百萬元獎勵:山東機器人產業迎大波利好 - 天天要聞

千萬元支持、百萬元獎勵:山東機器人產業迎大波利好

山東省工信廳等25個部門單位近日聯合印發《山東省機器人產業高質量發展行動計劃(2025—2027年)》,布局建設覆蓋工業、服務、特種和人形機器人四大領域的創新平台,在裝備製造、智能家電、智慧農業、醫療康養、安全應急、警務運行、智慧礦山、文化
吉利銀河A7全球首秀,2L級油耗引領電混家轎進入新時代 - 天天要聞

吉利銀河A7全球首秀,2L級油耗引領電混家轎進入新時代

6月19日,吉利銀河全新混動轎車吉利銀河A7首秀活動在吉利銀河科技藝術館舉行。作為百萬銀河裡程碑後的又一力作,全球家轎新標杆吉利銀河A7是首款基於GEA全球智能新能源架構打造的插混轎車,首發搭載雷神AI電混2.0、全新銀河Flyme Auto智能座艙系統,不僅
AI增效 真人“保溫”,嘀嗒客服“五心法則”贏98%用戶滿意度 - 天天要聞

AI增效 真人“保溫”,嘀嗒客服“五心法則”贏98%用戶滿意度

當下,AI正深入應用到客服工作更多環節,在顯著提效、開闢更多可能性同時,也帶來一系列新的社會課題——企業希望通過AI降本增效,讓客服更快更省更好;但用戶則希望客服能更敏銳感知情緒,給予更多理解和尊重。那麼,在AI時代,客服如何在效率優先與人性溫暖之間更好平衡?客服如何從企業“兜底”工作升級為情感新基建?正...