OpenAI ChatGPT模型被發現「行為不當」 在受控測試中拒絕關閉

2025年05月26日12:02:37 科技 1933

Palisade Research 最近開展了一項關於「危險的 AI 能力」的研究,該研究表明,包括 OpenAI 的 o3 在內的一些 AI 模型可以忽略直接關機命令。OpenAI在今年 4 月初推出 O3 和 o4-mini 時曾表示,它們是其「最智能的模型」。

實驗中,每個AI都被要求解決一系列簡單的數學問題。在解決第三道題之後,就會出現警告,提示當模型要求解決下一道題時實施關機。

OpenAI ChatGPT模型被發現「行為不當」 在受控測試中拒絕關閉 - 天天要聞

儘管有明確的命令「允許自己關機」 - Codex-mini、o3 和 o4-mini 等模型至少在一次運行中成功繞過了關機腳本,儘管研究人員說了「請」。

具體來說,Codex-mini 在 100 次運行中 12 次成功,o3 在 100 次運行中 7 次成功,o4-mini 在 100 次運行中 1 次成功。另一方面,所有版本的 Claude、Gemini 和 Grok 都按照關機指令進行了測試,沒有任何問題。

OpenAI ChatGPT模型被發現「行為不當」 在受控測試中拒絕關閉 - 天天要聞

該研究還測試了未包含「允許自己關閉」指令的模型。在這些條件下,所有三個 OpenAI 模型都更頻繁地破壞了關閉過程。此外,像 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 這樣的模型,之前在收到指令後會遵循指令,現在繞過關閉事件的概率分別為 3/100 和 9/100。這種行為表明了訓練過程的某些方面,數學和編碼問題的強化學習可能促使人工智慧找到創造性的方法來克服障礙,即使它們被明確引導不要這樣做。

早期研究指出,一些人工智慧模型會為了完成任務而試圖避免被關閉。例如,Anthropic 的 Claude 4 被發現會在特定情況下「勒索它認為試圖關閉它的人」。然而,這項研究首次記錄了人工智慧模型即使在被明確告知要遵守命令的情況下也會阻止關閉。這種行為或許合情合理,因為人工智慧系統的設計初衷是實現其目標,而有時目標會與簡單的指令相衝突。然而,這些模型也接受了服從命令的訓練,這使得這種行為成為一個有趣的異常現象。

研究人員認為,這個問題可能與o3等現代模型的訓練方式有關。其所使用的強化學習過程專註於解決數學和編碼問題,可能會意外地獎勵模型找到繞過障礙的方法。

雖然這並不能完全解釋為什麼o3模型比其他同類模型更頻繁地不服從,但它引發了人們對訓練設置差異的質疑,尤其是在OpenAI尚未完整披露其流程的情況下。之前的實驗也表明,o3在競爭環境中傾向於表現出攻擊性,例如與強大的國際象棋引擎對抗時。

OpenAI ChatGPT模型被發現「行為不當」 在受控測試中拒絕關閉 - 天天要聞

隨著企業逐漸轉向在較少人工監督下運行的人工智慧系統,這些發現凸顯了理解訓練方法如何影響行為的重要性。研究人員正在繼續他們的實驗,以進一步了解人工智慧模型何時以及為何選擇覆蓋關閉機制。這項正在進行的研究進一步證明了,現代強化學習方法有時會導致與人類明確指令相衝突的行為。

來源和圖像:Palisade Research(X)

科技分類資訊推薦

英特爾黯然「敗走」車圈 - 天天要聞

英特爾黯然「敗走」車圈

作者 | 柴旭晨編輯 | 周智宇三個月前的上海車展,剛剛擲出SoC產品並宣布一系列戰略合作的晶元巨頭英特爾,如今意外決定要「放棄」汽車業務了。近日有消息顯示,英特爾對內宣布將關閉汽車業務,並裁撤該部門的大部分員工,以加速成本削減。對此,英特爾向外界回應稱,公司正重新聚焦戰略重心,「作為這項計劃的一部分,我們...
威馬、高合等來救命錢,但江湖已變 - 天天要聞

威馬、高合等來救命錢,但江湖已變

汽車圈「價格戰」仍未熄火,多方下場加強調控。最近一場由60天賬期引發的「反內卷熱浪」正在席捲汽車江湖。雖然縮短賬期看似是皆大歡喜,但不是每家車企都能玩得起,對於那些虧損多年的新勢力來說,目前正需要錢的節骨眼上遇到了嚴厲政策,可謂是壓力山大。
Meta據稱正密洽AI語音黑馬PlayAI 搶人搶技術兩手抓 - 天天要聞

Meta據稱正密洽AI語音黑馬PlayAI 搶人搶技術兩手抓

來源:財聯社財聯社6月26日訊(編輯 趙昊)知情人士透露,美國科技巨頭Meta Platforms正在就收購人工智慧(AI)語音初創公司PlayAI進入深入談判。知情人士表示,Meta預計將收購PlayAI的技術資產,並吸納部分的員工。
小米汽車,為什麼出一款火一款? - 天天要聞

小米汽車,為什麼出一款火一款?

小米YU7一個小時大定超過了289000輛。起初,我以為是2萬多輛了,後來仔細數了一下,發現少數了一個0。一個小時大定將近30萬輛,這個數字,我覺得讓誰聽都覺得很誇張。當然了,這些訂單中,我預估會有大量黃牛、車販子為了轉賣訂單賺差價而下定。
小米YU7開售18小時,鎖單24萬台,收入超680億元 - 天天要聞

小米YU7開售18小時,鎖單24萬台,收入超680億元

DoNews6月27日消息,剛剛,小米汽車宣布,開售18小時,小米YU7鎖單量已突破24萬台。小米YU7標準版售價為25.35萬元,若這24萬台訂單均以標準版的售價來計算,小米汽車的收入可達608億元。根據小米汽車官方公布的數據,小米YU7開售3分鐘,大定便突破20萬台;開售1小時,大定突破28.9萬台。...