Palisade Research 最近開展了一項關於「危險的 AI 能力」的研究,該研究表明,包括 OpenAI 的 o3 在內的一些 AI 模型可以忽略直接關機命令。OpenAI在今年 4 月初推出 O3 和 o4-mini 時曾表示,它們是其「最智能的模型」。
實驗中,每個AI都被要求解決一系列簡單的數學問題。在解決第三道題之後,就會出現警告,提示當模型要求解決下一道題時實施關機。
儘管有明確的命令「允許自己關機」 - Codex-mini、o3 和 o4-mini 等模型至少在一次運行中成功繞過了關機腳本,儘管研究人員說了「請」。
具體來說,Codex-mini 在 100 次運行中 12 次成功,o3 在 100 次運行中 7 次成功,o4-mini 在 100 次運行中 1 次成功。另一方面,所有版本的 Claude、Gemini 和 Grok 都按照關機指令進行了測試,沒有任何問題。
該研究還測試了未包含「允許自己關閉」指令的模型。在這些條件下,所有三個 OpenAI 模型都更頻繁地破壞了關閉過程。此外,像 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 這樣的模型,之前在收到指令後會遵循指令,現在繞過關閉事件的概率分別為 3/100 和 9/100。這種行為表明了訓練過程的某些方面,數學和編碼問題的強化學習可能促使人工智慧找到創造性的方法來克服障礙,即使它們被明確引導不要這樣做。
早期研究指出,一些人工智慧模型會為了完成任務而試圖避免被關閉。例如,Anthropic 的 Claude 4 被發現會在特定情況下「勒索它認為試圖關閉它的人」。然而,這項研究首次記錄了人工智慧模型即使在被明確告知要遵守命令的情況下也會阻止關閉。這種行為或許合情合理,因為人工智慧系統的設計初衷是實現其目標,而有時目標會與簡單的指令相衝突。然而,這些模型也接受了服從命令的訓練,這使得這種行為成為一個有趣的異常現象。
研究人員認為,這個問題可能與o3等現代模型的訓練方式有關。其所使用的強化學習過程專註於解決數學和編碼問題,可能會意外地獎勵模型找到繞過障礙的方法。
雖然這並不能完全解釋為什麼o3模型比其他同類模型更頻繁地不服從,但它引發了人們對訓練設置差異的質疑,尤其是在OpenAI尚未完整披露其流程的情況下。之前的實驗也表明,o3在競爭環境中傾向於表現出攻擊性,例如與強大的國際象棋引擎對抗時。
隨著企業逐漸轉向在較少人工監督下運行的人工智慧系統,這些發現凸顯了理解訓練方法如何影響行為的重要性。研究人員正在繼續他們的實驗,以進一步了解人工智慧模型何時以及為何選擇覆蓋關閉機制。這項正在進行的研究進一步證明了,現代強化學習方法有時會導致與人類明確指令相衝突的行為。
來源和圖像:Palisade Research(X)