OpenAI ChatGPT模型被發現「行為不當」 在受控測試中拒絕關閉

2025年05月26日12:02:37 科技 1933

Palisade Research 最近開展了一項關於「危險的 AI 能力」的研究,該研究表明,包括 OpenAI 的 o3 在內的一些 AI 模型可以忽略直接關機命令。OpenAI在今年 4 月初推出 O3 和 o4-mini 時曾表示,它們是其「最智能的模型」。

實驗中,每個AI都被要求解決一系列簡單的數學問題。在解決第三道題之後,就會出現警告,提示當模型要求解決下一道題時實施關機。

OpenAI ChatGPT模型被發現「行為不當」 在受控測試中拒絕關閉 - 天天要聞

儘管有明確的命令「允許自己關機」 - Codex-mini、o3 和 o4-mini 等模型至少在一次運行中成功繞過了關機腳本,儘管研究人員說了「請」。

具體來說,Codex-mini 在 100 次運行中 12 次成功,o3 在 100 次運行中 7 次成功,o4-mini 在 100 次運行中 1 次成功。另一方面,所有版本的 Claude、Gemini 和 Grok 都按照關機指令進行了測試,沒有任何問題。

OpenAI ChatGPT模型被發現「行為不當」 在受控測試中拒絕關閉 - 天天要聞

該研究還測試了未包含「允許自己關閉」指令的模型。在這些條件下,所有三個 OpenAI 模型都更頻繁地破壞了關閉過程。此外,像 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 這樣的模型,之前在收到指令後會遵循指令,現在繞過關閉事件的概率分別為 3/100 和 9/100。這種行為表明了訓練過程的某些方面,數學和編碼問題的強化學習可能促使人工智慧找到創造性的方法來克服障礙,即使它們被明確引導不要這樣做。

早期研究指出,一些人工智慧模型會為了完成任務而試圖避免被關閉。例如,Anthropic 的 Claude 4 被發現會在特定情況下「勒索它認為試圖關閉它的人」。然而,這項研究首次記錄了人工智慧模型即使在被明確告知要遵守命令的情況下也會阻止關閉。這種行為或許合情合理,因為人工智慧系統的設計初衷是實現其目標,而有時目標會與簡單的指令相衝突。然而,這些模型也接受了服從命令的訓練,這使得這種行為成為一個有趣的異常現象。

研究人員認為,這個問題可能與o3等現代模型的訓練方式有關。其所使用的強化學習過程專註於解決數學和編碼問題,可能會意外地獎勵模型找到繞過障礙的方法。

雖然這並不能完全解釋為什麼o3模型比其他同類模型更頻繁地不服從,但它引發了人們對訓練設置差異的質疑,尤其是在OpenAI尚未完整披露其流程的情況下。之前的實驗也表明,o3在競爭環境中傾向於表現出攻擊性,例如與強大的國際象棋引擎對抗時。

OpenAI ChatGPT模型被發現「行為不當」 在受控測試中拒絕關閉 - 天天要聞

隨著企業逐漸轉向在較少人工監督下運行的人工智慧系統,這些發現凸顯了理解訓練方法如何影響行為的重要性。研究人員正在繼續他們的實驗,以進一步了解人工智慧模型何時以及為何選擇覆蓋關閉機制。這項正在進行的研究進一步證明了,現代強化學習方法有時會導致與人類明確指令相衝突的行為。

來源和圖像:Palisade Research(X)

科技分類資訊推薦

科技金融:「掃一掃,千萬到手」 - 天天要聞

科技金融:「掃一掃,千萬到手」

5月22日,「金魚嘴·機構日」金沙江聯合資本·AI+智能硬體專場在南京金魚嘴基金大廈舉行。參加路演的9家企業覆蓋工業機器人、智慧城市、醫療健康設備等領域。今天,記者走進全國首個基金特色街區——南京金魚嘴基金街區,源碼資本、毅達資本、華映資本等知名機構的標識鋪滿一整面牆,另一面牆上則有清華大學、上海交通大學...
蘋果iPhone 17 Pro Max - 廚師cook做到了! - 天天要聞

蘋果iPhone 17 Pro Max - 廚師cook做到了!

蘋果iPhone17系列塑料模型的第一個上手視頻。這是接近最終的設計。iPhone17的外觀將會是這樣的。左邊有三個攝像頭,LED閃光燈、麥克風和騙子位於最右邊的角落,可能是為了給獨立顯示面部識別騰出空間。這個音量鍵、電源鍵、操作鍵和無用的
安卓16對智能手機手電筒亮度將可調節 - 天天要聞

安卓16對智能手機手電筒亮度將可調節

安卓 16 QPR1 Beta 版推出,帶來諸多精彩功能,未來版本可能還會有更驚艷的升級,其中一個可能就是 「手電筒亮度調節」 工具。也許很快,用戶就能控制設備閃光燈的光強度了。谷歌為推出此功能籌備已久。
特朗普對蘋果和三星說:要麼在美國製造,要麼支付25%的關稅 - 天天要聞

特朗普對蘋果和三星說:要麼在美國製造,要麼支付25%的關稅

唐納德・特朗普正力促蘋果、三星等主要智能手機製造商,將面向美國市場的產品生產環節遷回美國。他警告說,若不照做,就會對其產品徵收 25% 的進口關稅。特朗普先是通過其 「真相社交」 平台發布了這一消息,後又在橢圓形辦公室的簡報會上重申了一遍。
小米重磅發布,又「史上最強」!收入、盈利均創歷史新高!小米SU7系列交付新車75869輛,盧偉冰介紹小米AI布局 - 天天要聞

小米重磅發布,又「史上最強」!收入、盈利均創歷史新高!小米SU7系列交付新車75869輛,盧偉冰介紹小米AI布局

每經編輯:陳柯名,黃勝5月27日晚間,小米集團公布財報,2025年第一季度,集團收入及盈利均再次創下歷史新高。2025年第一季度,小米集團總收入為人民幣1113億元,創歷史新高,同比增長47.4%。業務分部來看,2025年第一季度,手機×AIoT分部收入為人民幣927億元,同比增長22.8%,智能電動汽車及AI等創新業務分部收入為人民幣...
全鏈條打擊 政企共治多部門聯合治理共享單車小廣告頑疾 - 天天要聞

全鏈條打擊 政企共治多部門聯合治理共享單車小廣告頑疾

共享單車是當下方便市民群眾出行的交通工具,但車身上被張貼噴塗的非法小廣告嚴重影響城市環境秩序,而且小廣告的內容往往與詐騙、涉黃涉毒、制假販假等違法犯罪活動相關聯,一旦輕信很有可能遭受財產損失或陷入違法犯罪陷阱。近年來,市城管執法局會同市交通委、市公安局等部門,強化對共享單車小廣告的執法檢查,不斷完善...