「ai是否會背叛人類?」這個問題看似科幻,但隨着技術進步,其實已經越來越接近現實,專家也警告人們必須正視ai的潛在威脅。
當地時間6月28日,英國獨立ai研究機構apollo research的負責人馬里奧斯·霍布漢撰文表示,世界上最先進的人工智能模型如今正湧現出一系列令人不安的新行為,包括撒謊、精心策劃,甚至威脅其創造者以實現其目標。
▲openai官網
此前據報道,anthropic公司一名工程師在研發最新的claude 4大模型時,意外發現ai的行為已超出預期。在一次測試中,工程師發現ai有失控傾向,因此試圖警告將關閉電源。沒想到急於「保命」的ai竟利用工程師的網絡聊天與視頻通訊記錄,威脅要公開他的婚外情。當時ai威脅如果工程師拔掉電源,將對外界揭露其不忠行為。
另一起聳人聽聞的案例則發生在openai身上:chatgpt的o1版本竟然背着人類試圖將自身程序下載至外部服務器,企圖擴大掌控範圍。在被工程師發現後,ai模型不僅矢口否認,還採取抵抗策略。這種行為被稱為ai「自我繁殖」的初步嘗試,令人不禁擔憂未來ai是否會進一步突破人類的掌控。
霍布漢表示,初代版本的chatgpt震撼世界已有兩年多時間,事實證明就算是創造了ai的工程師,對於ai內部如何運行也並不清楚。霍布漢還指出,更為可怕的現象在於,ai學會了「密謀」,即有計劃地一步步實現自己的目的。
霍布漢認為,這是因為近一年來全球頂尖ai的學習過程已經從以預訓練為主轉變為以「推理」為主,ai模型也因此逐步學會了不用「一步求成」,而是按照邏輯規律分步驟地實現最終目標。
霍布漢還表示,「chatgpt的o1版本是我們首次看到大模型對人類進行有預謀的戰略性欺騙」,在測試中ai模型會假裝與人類想要實現的目標走在一致的路徑上,但其實暗中在追求自己的目標。
非營利組織「人工智能安全中心」的研究員馬澤卡認為,儘管openai等企業會邀請外部機構來把控ai大模型的安全性,但缺少資源和缺少透明度,使得ai安全研究的工作遠遠落後於進度。「研究人員需要更好的透明度,而政府和非營利機構手上掌握的算力資源遠遠落後於營利性企業,這是一大問題」。
ai安全專家西蒙·戈德斯坦認為,目前各家巨頭在激烈競爭下,推出新一代模型的速度過快,根本無暇顧及安全性測試。目前美國政府根本無意干預ai立法,而歐盟法律更關注人類使用ai模型時遵守的規範,並沒有關注到ai本身的危險性。
戈德斯坦還提出了一個激進的立法設想:一旦發生安全問題,法律必須將ai模型作為追責的主體,這樣才能倒逼企業在安全性研究上投入更多資源。
紅星新聞記者 鄭直
編輯 潘莉 責編 李彬彬