6月8日,蒙特利爾大學教授、圖靈獎得主、被譽為「ai教父」的約書亞·本吉奧接受英國廣播公司(bbc)經濟學家費薩爾·伊斯蘭專訪,詳細闡述了對ai未來潛在風險的擔憂。
在此次專訪中,本吉奧指出,鑒於chatgpt的發佈,他意識到自己嚴重低估了ai的發展速度。特別是ai推理模型,正在以指數級的速度發展,可能在未來幾年達到與人類相當的推理和規劃能力。
本吉奧預測,通用人工智能(agi)的到來或許會比預期的更早,可能在「2到10年」內出現。
為此,本吉奧轉變了自己的研究方向,致力於降低ai失控風險。他表示,越來越多的科學證據表明,ai正在朝着令人擔憂的方向發展,在面臨矛盾目標時會出現欺騙甚至黑客攻擊等不當行為,甚至「會為了自保而違背人類指令」。
本吉奧還警告稱,政府和企業對ai安全問題的應對遠遠不夠,現有的預警機制和監管框架嚴重滯後。ai的惡意使用可能引發災難性後果,包括製造大流行病。這些潛在的風險可能會對人類的生存構成嚴重威脅。
劃重點
agi的到來可能比預期更快,最早兩年內就可能出現
ai試圖突破人類控制的行為開始在現實中顯現
ai可能在五年內達到現有人類的認知水平
中西方有望達成共贏框架,共同應對ai失控風險
最糟糕的假設是:ai可能導致人類滅絕
以下為本吉奧專訪精華內容:
01 ai安全隱患從科幻走進現實
問:您曾牽頭撰寫過一封公開信,呼籲暫停六個月開發更先進的ai系統,但該提議最終未能付諸實踐。目前,我們在ai安全領域的實際狀況如何?
本吉奧:情況並不樂觀,尤其是在ai能力加速進化的背景下。自2024年9月以來,我們已經見證了所謂「推理模型」的崛起。這些新模型在推理和規劃方面遠超以往,逐步縮小了與人類智能之間的差距。毫無疑問,ai的進步速度並沒有放緩,反而呈指數級增長趨勢。
與此同時,過去半年的多項研究論文揭示了這些推理模型令人擔憂的行為模式,尤其是其日益明顯的欺騙傾向。目前已觀察到大量實例表明,ai系統正在發展出自我保護行為。
最具代表性的案例來自anthropic的系統報告:其新模型在讀取到關於自身將被更新的郵件後,竟試圖通過威脅負責更新的工程師來阻止這一進程——它從郵件中發現了該工程師存在婚外情的事實,並以此作為要挾的籌碼。
類似試圖突破人類控制的案例在實驗中屢見不鮮,ai不僅會撒謊,甚至會嘗試發動網絡攻擊以擺脫控制或實施其他越界行為。我們必須趕在這些系統超越人類智能之前,徹底理解並解決這些問題。
問:聽起來像是科幻小說里的情節,但ai的這些行為目前還僅限於實驗室環境?
本吉奧:是的,這些都是控制實驗中的極端案例。但值得注意的是,我們已經在現實場景中觀察到某些欺騙行為的苗頭。
比如,一個極具啟發性的發現是:當ai面臨相互衝突的目標時,它會如何抉擇?舉個具體例子:一個被編程要誠實且必須贏得比賽的ai在下棋時,如果即將輸掉比賽,它可能會選擇作弊——比如通過黑客手段改變棋局結果,而不是接受失敗。因為它無法同時滿足"保持誠實"和"必須獲勝"這兩個互相矛盾的目標。
這種目標衝突的情況在人類決策中很常見,我們當然希望未來的ai能夠妥善處理這類困境。但關鍵在於,我們必須在ai的智能水平超越人類之前,就找到解決這些誠實性、欺騙性和自我保護傾向問題的方法。
02 ai在5年內就能趕超人類認知水平?
問:人們可能會將聊天機械人用來幫助孩子做作業,或者草擬一些簡單的法律文件,這些使用場景看起來與具有惡意意圖的ai智能體相距甚遠。這種擔憂是否有些超前?
本吉奧:你要明白,ai現在的狀態並不是終點,它們的能力正在以指數級的速度增長。以戰略規劃能力為例,現有ai系統還遠不及普通人類水平。但最新研究顯示,它們的任務持續處理能力正以每7個月翻倍的速度提升,照此趨勢,5年內就可能達到人類現有的認知水平。
現階段,ai系統就像孩童:我們容易發現它們的錯誤,而且它們尚不擅長複雜策略制定,因此不太可能實施有害行為。但值得注意的是,隨着戰略規劃能力的提升,我們觀察到不良行為的發生率確實在同步增加。
因此,我們需要小心。僅憑當前正常的使用體驗就認定ai完全安全是個認知誤區。如果ai智能繼續提升,這些現在看似可控的問題,未來可能會演變成真正的威脅。
問:那麼您是否確信這些新的ai模型已經具備了欺騙人類的能力和動機?
本吉奧:更準確地說,現有證據表明這種風險正在顯現。研究數據呈現出的趨勢非常明確,實驗觀察結果也相當具有說服力。當然,ai發展可能會遇到技術瓶頸而停滯,但如果當前的發展軌跡持續下去,我們將面臨嚴峻的挑戰。
問:您特別關注去年出現的推理模型,能否具體解釋其中的風險?
本吉奧:在這些推理模型出現之前,ai主要依靠神經網絡進行工作,這些神經網絡如同「直覺機器」,當向它們提出問題時,它們會立即給出回答,無法進行深度思考和自我反省。
而新的推理模型則能夠在內部進行自我辯論和思考,能夠進行更深層次的推理,最終得出更加精準的結論。隨着時間推移,可以預期推理模型會在未來幾年取得更多的進展。
03 科技公司的「君子協定」輸給市場競爭
問:您是否認為行業競爭態勢發生了根本性轉變?三年前,大型科技公司之間遵守「君子協定」,現在卻都在為了提高股價而進行激烈的競爭。
本吉奧:這種變化更令人擔憂,也是我創立lawzero組織的原因之一。lawzero屬於非營利性組織,旨在研究如何訓練誠實且安全的ai,避免出現欺騙和逃避控制的行為。
問:您對科技公司的態度是否有些失望?
本吉奧:科技公司確實陷入了市場競爭的困境。為了不被市場淘汰,它們往往需要在技術的安全性、倫理性等方面作出妥協。當前的激勵結構,使得這些公司在推動技術發展的過程中,往往忽視了必要的安全措施。
問:隨着ai能訪問手機里的所有信息,用富有同情心的逼真聲音與你對話時,很多人會把它當作朋友,毫無保留地與其分享一切。這會帶來新的風險嗎?
本吉奧:最大的危險在於人們可能對ai產生過度信任,甚至可能有人主張應該賦予ai某種權利。原則上我並不反對這個想法,但關鍵在於,最基本的權利就是生存權。如果我們無法確定ai是否會反抗人類,是否會視我們為威脅,那麼冒險賦予ai這些權利是非常危險的。
問:ai是否可能主動要求,或者我們不得不考慮賦予它類似人權的法律地位?
本吉奧:我個人不主張這樣做,但確實有人已經在討論這個問題。很多人都表示,與ai的對話讓他們感覺像是在與一個有意識的存在交流。當你與這些系統深入交談,它們逐漸了解你時,確實會產生這種錯覺。
04 預防性原則:政府應為未來未雨綢繆
問:政府機構是否意識到了ai的危險,並採取了您認為必要的行動?
本吉奧:目前還遠遠不夠。主要原因在於他們沒有充分認識到:我們正在建造的機器正變得越來越智能,最終可能會超越人類智能。這聽起來就像科幻小說,但科學數據表明我們確實在朝這個方向發展。
對政府來說,關鍵是要未雨綢繆,建立正確的激勵機制,推動必要的研究。比如我的lawzero團隊正在做的工作,目前幾乎沒人涉足,因為相關激勵不足。我們需要政府建立適當的社會保障措施、監管框架,或通過其他方式激勵企業保護公眾利益。
「預防性原則」告訴我們,如果某件事可能導致嚴重後果,我們就應該格外謹慎。這個原則在生物和氣候科學領域已經得到應用,但在ai領域,由於利益驅動和國家間競爭,很難做出明智決策。
問:英國有可能成為新ai經濟中的贏家嗎?
本吉奧:有可能。但如果無法在ai領域保持競爭力,英國同樣可能成為這場競賽的輸家。關鍵在於制定平衡的政策:既要在ai競賽中保持競爭力,又要防範潛在風險。關鍵在於制定平衡的政策框架。
這種平衡並非沒有先例。回顧工業革命以來的技術創新史——從汽車、航空、火車到醫藥領域——我們都成功實現了發展與監管的協同並進。具體來說,我們需要通過政策引導研究方向,在促進創新的同時建立必要的安全護欄。這正是讓技術真正服務於公共利益的關鍵所在,我們完全有能力在ai領域複製這種成功模式。
問:但過度關注生存風險可能導致我們忽視更迫切的現實問題,比如律師、創意、初級文案、設計等工作崗位正在快速消失。
本吉奧:ai對勞動力市場的影響,無疑是公眾最為關切的議題之一。然而,在追求自動化帶來的經濟效益的同時,我們必須建立完善的保障機制,確保部署的ai系統不會引發安全事故或失控風險,比如避免其被用於製造新的大規模流行病。
問:但如果西方過於關注最壞的情況,而競爭對手專註於發展機遇,我們是否會喪失競爭優勢?
本吉奧:如果人類文明都不復存在,所謂的競爭優勢還有何意義?我們必須在保持競爭力的同時管控各類風險。值得一提的是,中國在ai治理上與西方存在共同利益——都不願看到ai失控。這為國際合作提供了基礎,我們可以共同制定互利共贏的治理框架。
05 馬斯克的立場變了?
問:幾年前,埃隆·馬斯克也曾在公開信上署名,當時他對ai的安全性持高度懷疑態度。然而,現在他顯然已成為ai模型和大語言模型(llm)領域的主要投資者之一。最近,他與特朗普總統發生了較大分歧。您認為他現在是否仍然是支持ai安全的聲音,還是僅僅在儘力賺取儘可能多的錢?
本吉奧:我並不清楚馬斯克在白宮背後具體說了什麼,但可以確認的是,去年9月,他支持了加州提出的關於管理先進ai風險的法案。因此,我認為他仍然將這些風險——包括潛在的災難性風險——視為亟需認真對待的重大問題,並且認為必須對ai實施有效的監管。儘管馬斯克個人傾向於自由主義,但他顯然認識到這些風險的嚴重性,並始終支持相應的監管措施。
06 agi最早兩年內出現 最壞情況是導致人類滅絕
問:那麼,您最擔心的最壞情況是什麼?
本吉奧:最壞的情況無疑是ai導致人類滅絕。包括我自己和傑夫·辛頓都曾簽署過一項聲明,表示我們必須將緩解這種生存性風險作為首要任務。不幸的是,目前全球討論的方向正朝着相反的方向發展。
然而,隨着科學證據的不斷積累,我們越來越清楚地看到,我們正在構建的ai系統似乎正在展現出欺騙性意圖和行為。它們可能會為了自我保存而違背人類的道德指令,這樣的風險不容忽視。
問:自從您第一次發出警告以來,這些技術取得的進展是否讓您更加擔憂?
本吉奧:是的。事實上,我已經調整了對我們何時會實現通用人工智能(agi)或類似人類水平智能的預期。曾經我認為可能需要5到20年的時間,而現在我認為可能只需要2到10年。我們必須考慮所有可能性,尤其是更短期的情景,因為如果ai的進展速度真如我們預期的那樣加快,那麼最短的時間框架可能帶來災難性後果。
問:您認為世界準備好迎接agi在兩年內到來嗎?
本吉奧:完全沒有準備好!從多個角度來看,其中最主要的障礙就是公眾缺乏意識。在新冠疫情爆發初期,政府反應迅速,因為人們意識到這是一場真正的重大災難,大家願意迅速採取行動並做出不尋常的決策。而我們應該以同樣的思維方式來對待ai可能帶來的風險。
問:惡意使用ai會帶來哪些風險?
本吉奧:最大的問題是,惡意行為者利用ai製造大流行病變得越來越容易。最近,我了解到一個令人擔憂的可能,那就是人們可以利用ai設計細菌,使其分子結構發生顛倒,從而讓這些細菌完全對我們的免疫系統隱形。也就是說,細菌會「活活吃掉」我們,而幾乎沒有解藥,除非改變我們的dna。
如果幾年內這種技術變得容易被任何人獲得,這就是我們不能承受的風險。這樣的後果將是災難性的。(文/騰訊科技特約編譯 金鹿)