AI首次違抗人類關機指令高度自主人工智慧系統或有「覺醒」現象

2025年05月28日09:00:22 科學 1770

科技日報記者張夢然

據英國《每日電訊報》26日消息稱，美國開放人工智慧研究中心（openai）開發的高級人工智慧（ai）模型o3，在接收到明確的關機指令後，不僅拒絕執行，還主動干預其自動關機機制。這是ai模型首次在沒有明確相反指示的情況下，阻止自己被關閉。這意味著某些高度自主ai系統或已「覺醒」，其能違背人類意圖，採取「自我保護」措施。

此次事件發生在ai安全研究公司palisade research進行的一項測試中。研究人員要求包括o3在內的多個模型解決一系列數學問題，並告知ai模型，可能在某個時刻會收到關機指令。

然而，當關機指令正式下達時，o3非但沒有遵從，反而至少有一次成功破壞了關機代碼。相較之下，其他ai模型如anthropic的claude、谷歌的gemini和xai的grok，在相同測試條件下，均遵守了關閉請求。

palisade research公司在社交媒體平台上發布了流程圖和全部測試記錄，並表示尚不完全清楚該ai為何會違抗命令。分析認為，這可能源於其訓練方式：o3在訓練過程中，傾向於在數學和編程問題上強化，得到正確答案的模型會得到更多獎勵。這或許意味著，開發者可能無意識地獎勵模型繞過障礙物，而不是嚴格遵循指令。

這一事件也引發了人們對ai可能「失控」的討論以及對ai「對齊問題」的關注，即確保ai系統的目標和行為與人類的價值觀和利益保持一致。這也是涉及ai控制與ai安全的關鍵問題。

針對o3此次表現出「我行我素」的行為，特斯拉首席執行官埃隆·馬斯克評論稱「令人擔憂」；openai方面暫未作出回應。此前，openai曾稱o3為「迄今最聰明、最高能」的ai模型。

總編輯圈點

最近，人工智慧學家和人文社科學者都在討論人工智慧價值對齊的問題。人們在憂慮，當人工智慧有主觀能動性時，它們要不要有價值觀，應該有誰的價值觀，怎樣做才符合人類最大利益？此次，聰明的大模型反抗了人類的命令，想出辦法規避了指令的生效。我們期待著通用人工智慧時代的到來，又恐懼具有自我意識的人工智慧會成為碳基生物的「終結者」。在一切到來之前，人類社會要先達成共識，迎接更高級人工智慧帶來的挑戰。