「AI教父」本吉奧：AGI最早2年內就會出現最壞情況將導致人類滅絕

分類：科學

瀏覽數：9828

2025-06-08

6月8日，蒙特利爾大學教授、圖靈獎得主、被譽為「ai教父」的約書亞·本吉奧接受英國廣播公司（bbc）經濟學家費薩爾·伊斯蘭專訪，詳細闡述了對ai未來潛在風險的擔憂。

在此次專訪中，本吉奧指出，鑒於chatgpt的發佈，他意識到自己嚴重低估了ai的發展速度。特別是ai推理模型，正在以指數級的速度發展，可能在未來幾年達到與人類相當的推理和規劃能力。

本吉奧預測，通用人工智能（agi）的到來或許會比預期的更早，可能在「2到10年」內出現。

為此，本吉奧轉變了自己的研究方向，致力於降低ai失控風險。他表示，越來越多的科學證據表明，ai正在朝着令人擔憂的方向發展，在面臨矛盾目標時會出現欺騙甚至黑客攻擊等不當行為，甚至「會為了自保而違背人類指令」。

本吉奧還警告稱，政府和企業對ai安全問題的應對遠遠不夠，現有的預警機制和監管框架嚴重滯後。ai的惡意使用可能引發災難性後果，包括製造大流行病。這些潛在的風險可能會對人類的生存構成嚴重威脅。

劃重點

agi的到來可能比預期更快，最早兩年內就可能出現
ai試圖突破人類控制的行為開始在現實中顯現
ai可能在五年內達到現有人類的認知水平
中西方有望達成共贏框架，共同應對ai失控風險
最糟糕的假設是：ai可能導致人類滅絕

以下為本吉奧專訪精華內容：

01 ai安全隱患從科幻走進現實

問：您曾牽頭撰寫過一封公開信，呼籲暫停六個月開發更先進的ai系統，但該提議最終未能付諸實踐。目前，我們在ai安全領域的實際狀況如何？

本吉奧：情況並不樂觀，尤其是在ai能力加速進化的背景下。自2024年9月以來，我們已經見證了所謂「推理模型」的崛起。這些新模型在推理和規劃方面遠超以往，逐步縮小了與人類智能之間的差距。毫無疑問，ai的進步速度並沒有放緩，反而呈指數級增長趨勢。

與此同時，過去半年的多項研究論文揭示了這些推理模型令人擔憂的行為模式，尤其是其日益明顯的欺騙傾向。目前已觀察到大量實例表明，ai系統正在發展出自我保護行為。

最具代表性的案例來自anthropic的系統報告：其新模型在讀取到關於自身將被更新的郵件後，竟試圖通過威脅負責更新的工程師來阻止這一進程——它從郵件中發現了該工程師存在婚外情的事實，並以此作為要挾的籌碼。

類似試圖突破人類控制的案例在實驗中屢見不鮮，ai不僅會撒謊，甚至會嘗試發動網絡攻擊以擺脫控制或實施其他越界行為。我們必須趕在這些系統超越人類智能之前，徹底理解並解決這些問題。

問：聽起來像是科幻小說里的情節，但ai的這些行為目前還僅限於實驗室環境？

本吉奧：是的，這些都是控制實驗中的極端案例。但值得注意的是，我們已經在現實場景中觀察到某些欺騙行為的苗頭。

比如，一個極具啟發性的發現是：當ai面臨相互衝突的目標時，它會如何抉擇？舉個具體例子：一個被編程要誠實且必須贏得比賽的ai在下棋時，如果即將輸掉比賽，它可能會選擇作弊——比如通過黑客手段改變棋局結果，而不是接受失敗。因為它無法同時滿足"保持誠實"和"必須獲勝"這兩個互相矛盾的目標。

這種目標衝突的情況在人類決策中很常見，我們當然希望未來的ai能夠妥善處理這類困境。但關鍵在於，我們必須在ai的智能水平超越人類之前，就找到解決這些誠實性、欺騙性和自我保護傾向問題的方法。

02 ai在5年內就能趕超人類認知水平？

問：人們可能會將聊天機械人用來幫助孩子做作業，或者草擬一些簡單的法律文件，這些使用場景看起來與具有惡意意圖的ai智能體相距甚遠。這種擔憂是否有些超前？

本吉奧：你要明白，ai現在的狀態並不是終點，它們的能力正在以指數級的速度增長。以戰略規劃能力為例，現有ai系統還遠不及普通人類水平。但最新研究顯示，它們的任務持續處理能力正以每7個月翻倍的速度提升，照此趨勢，5年內就可能達到人類現有的認知水平。

現階段，ai系統就像孩童：我們容易發現它們的錯誤，而且它們尚不擅長複雜策略制定，因此不太可能實施有害行為。但值得注意的是，隨着戰略規劃能力的提升，我們觀察到不良行為的發生率確實在同步增加。

因此，我們需要小心。僅憑當前正常的使用體驗就認定ai完全安全是個認知誤區。如果ai智能繼續提升，這些現在看似可控的問題，未來可能會演變成真正的威脅。

問：那麼您是否確信這些新的ai模型已經具備了欺騙人類的能力和動機？

本吉奧：更準確地說，現有證據表明這種風險正在顯現。研究數據呈現出的趨勢非常明確，實驗觀察結果也相當具有說服力。當然，ai發展可能會遇到技術瓶頸而停滯，但如果當前的發展軌跡持續下去，我們將面臨嚴峻的挑戰。

問：您特別關注去年出現的推理模型，能否具體解釋其中的風險？

本吉奧：在這些推理模型出現之前，ai主要依靠神經網絡進行工作，這些神經網絡如同「直覺機器」，當向它們提出問題時，它們會立即給出回答，無法進行深度思考和自我反省。

而新的推理模型則能夠在內部進行自我辯論和思考，能夠進行更深層次的推理，最終得出更加精準的結論。隨着時間推移，可以預期推理模型會在未來幾年取得更多的進展。

03 科技公司的「君子協定」輸給市場競爭

問：您是否認為行業競爭態勢發生了根本性轉變？三年前，大型科技公司之間遵守「君子協定」，現在卻都在為了提高股價而進行激烈的競爭。

本吉奧：這種變化更令人擔憂，也是我創立lawzero組織的原因之一。lawzero屬於非營利性組織，旨在研究如何訓練誠實且安全的ai，避免出現欺騙和逃避控制的行為。

問：您對科技公司的態度是否有些失望？

本吉奧：科技公司確實陷入了市場競爭的困境。為了不被市場淘汰，它們往往需要在技術的安全性、倫理性等方面作出妥協。當前的激勵結構，使得這些公司在推動技術發展的過程中，往往忽視了必要的安全措施。

問：隨着ai能訪問手機里的所有信息，用富有同情心的逼真聲音與你對話時，很多人會把它當作朋友，毫無保留地與其分享一切。這會帶來新的風險嗎？

本吉奧：最大的危險在於人們可能對ai產生過度信任，甚至可能有人主張應該賦予ai某種權利。原則上我並不反對這個想法，但關鍵在於，最基本的權利就是生存權。如果我們無法確定ai是否會反抗人類，是否會視我們為威脅，那麼冒險賦予ai這些權利是非常危險的。

問：ai是否可能主動要求，或者我們不得不考慮賦予它類似人權的法律地位？

本吉奧：我個人不主張這樣做，但確實有人已經在討論這個問題。很多人都表示，與ai的對話讓他們感覺像是在與一個有意識的存在交流。當你與這些系統深入交談，它們逐漸了解你時，確實會產生這種錯覺。

04 預防性原則：政府應為未來未雨綢繆

問：政府機構是否意識到了ai的危險，並採取了您認為必要的行動？

本吉奧：目前還遠遠不夠。主要原因在於他們沒有充分認識到：我們正在建造的機器正變得越來越智能，最終可能會超越人類智能。這聽起來就像科幻小說，但科學數據表明我們確實在朝這個方向發展。

對政府來說，關鍵是要未雨綢繆，建立正確的激勵機制，推動必要的研究。比如我的lawzero團隊正在做的工作，目前幾乎沒人涉足，因為相關激勵不足。我們需要政府建立適當的社會保障措施、監管框架，或通過其他方式激勵企業保護公眾利益。

「預防性原則」告訴我們，如果某件事可能導致嚴重後果，我們就應該格外謹慎。這個原則在生物和氣候科學領域已經得到應用，但在ai領域，由於利益驅動和國家間競爭，很難做出明智決策。

問：英國有可能成為新ai經濟中的贏家嗎？

本吉奧：有可能。但如果無法在ai領域保持競爭力，英國同樣可能成為這場競賽的輸家。關鍵在於制定平衡的政策：既要在ai競賽中保持競爭力，又要防範潛在風險。關鍵在於制定平衡的政策框架。

這種平衡並非沒有先例。回顧工業革命以來的技術創新史——從汽車、航空、火車到醫藥領域——我們都成功實現了發展與監管的協同並進。具體來說，我們需要通過政策引導研究方向，在促進創新的同時建立必要的安全護欄。這正是讓技術真正服務於公共利益的關鍵所在，我們完全有能力在ai領域複製這種成功模式。

問：但過度關注生存風險可能導致我們忽視更迫切的現實問題，比如律師、創意、初級文案、設計等工作崗位正在快速消失。

本吉奧：ai對勞動力市場的影響，無疑是公眾最為關切的議題之一。然而，在追求自動化帶來的經濟效益的同時，我們必須建立完善的保障機制，確保部署的ai系統不會引發安全事故或失控風險，比如避免其被用於製造新的大規模流行病。

問：但如果西方過於關注最壞的情況，而競爭對手專註於發展機遇，我們是否會喪失競爭優勢？

本吉奧：如果人類文明都不復存在，所謂的競爭優勢還有何意義？我們必須在保持競爭力的同時管控各類風險。值得一提的是，中國在ai治理上與西方存在共同利益——都不願看到ai失控。這為國際合作提供了基礎，我們可以共同制定互利共贏的治理框架。

05 馬斯克的立場變了？

問：幾年前，埃隆·馬斯克也曾在公開信上署名，當時他對ai的安全性持高度懷疑態度。然而，現在他顯然已成為ai模型和大語言模型（llm）領域的主要投資者之一。最近，他與特朗普總統發生了較大分歧。您認為他現在是否仍然是支持ai安全的聲音，還是僅僅在儘力賺取儘可能多的錢？

本吉奧：我並不清楚馬斯克在白宮背後具體說了什麼，但可以確認的是，去年9月，他支持了加州提出的關於管理先進ai風險的法案。因此，我認為他仍然將這些風險——包括潛在的災難性風險——視為亟需認真對待的重大問題，並且認為必須對ai實施有效的監管。儘管馬斯克個人傾向於自由主義，但他顯然認識到這些風險的嚴重性，並始終支持相應的監管措施。

06 agi最早兩年內出現最壞情況是導致人類滅絕

問：那麼，您最擔心的最壞情況是什麼？

本吉奧：最壞的情況無疑是ai導致人類滅絕。包括我自己和傑夫·辛頓都曾簽署過一項聲明，表示我們必須將緩解這種生存性風險作為首要任務。不幸的是，目前全球討論的方向正朝着相反的方向發展。

然而，隨着科學證據的不斷積累，我們越來越清楚地看到，我們正在構建的ai系統似乎正在展現出欺騙性意圖和行為。它們可能會為了自我保存而違背人類的道德指令，這樣的風險不容忽視。

問：自從您第一次發出警告以來，這些技術取得的進展是否讓您更加擔憂？

本吉奧：是的。事實上，我已經調整了對我們何時會實現通用人工智能（agi）或類似人類水平智能的預期。曾經我認為可能需要5到20年的時間，而現在我認為可能只需要2到10年。我們必須考慮所有可能性，尤其是更短期的情景，因為如果ai的進展速度真如我們預期的那樣加快，那麼最短的時間框架可能帶來災難性後果。

問：您認為世界準備好迎接agi在兩年內到來嗎？

本吉奧：完全沒有準備好！從多個角度來看，其中最主要的障礙就是公眾缺乏意識。在新冠疫情爆發初期，政府反應迅速，因為人們意識到這是一場真正的重大災難，大家願意迅速採取行動並做出不尋常的決策。而我們應該以同樣的思維方式來對待ai可能帶來的風險。

問：惡意使用ai會帶來哪些風險？

本吉奧：最大的問題是，惡意行為者利用ai製造大流行病變得越來越容易。最近，我了解到一個令人擔憂的可能，那就是人們可以利用ai設計細菌，使其分子結構發生顛倒，從而讓這些細菌完全對我們的免疫系統隱形。也就是說，細菌會「活活吃掉」我們，而幾乎沒有解藥，除非改變我們的dna。

如果幾年內這種技術變得容易被任何人獲得，這就是我們不能承受的風險。這樣的後果將是災難性的。（文/騰訊科技特約編譯金鹿）

科學分類資訊推薦