AI會讓人類出局嗎？ - 科技| 天天要聞

2025年01月06日18:12:06 科技 1579

加州大學伯克利分校AI研究員邁克爾·科恩。（資料圖/圖）

迅猛發展的AI已經展示出了巨大的潛力，但另一方面，從2023年初開始，一些科學家和研究人員多次公開呼籲，人們關注先進AI可能給人類和社會帶來的嚴重風險。

一些特別的風險來自那些功能強大的通用AI模型。由於對它們的能力缺乏充分了解，且難以預測，潛在的主觀誤用和意外的失控產生的風險尤其不可忽視。為系統性地探討先進AI風險的治理，2024年4月，加州大學伯克利分校AI研究員邁克爾·科恩（Michael K. Cohen）等人在《科學》雜誌專門發表研究，分析了先進AI的獨特風險問題，及其可能的治理架構。在他看來，相比被設計用來執行即時任務的AI，那些有長遠規劃的智能體，為了得到特定的獎勵，可能會在很長的一段時間裏錨定特定目標，不斷追求獎勵的最大化，從而帶來不可預知的風險，甚至在某個時間將人類踢出局。

AI真的會導致諸如文明毀滅之類的結局嗎？我們又該如何理解和應對AI在當前和未來可能給人類帶來的風險？最近，邁克爾·科恩接受南方周末記者專訪，對相關問題進行了分析。

科幻故事可能成真

南方周末：早在2023年2月，你就曾提出，我們應該禁止人們訓練非常先進的人工智能體，但因為AI還沒有這麼先進，所以這樣的規定並不是必須馬上施行。然而，AI一直在快速發展，你覺得我們現在距離那些足夠先進且危險的人工智能體還有多遠？

邁克爾·科恩：可惜，我也不知道我們離那些先進到足以擺脫人類控制的AI智能體還有多遠。不過，這並不意味着現在開始專註於降低風險顯得為時過早。最後期限不確定其實意味着我們最好現在就開始行動。

南方周末：那你現在是怎麼使用AI應用的呢？會有什麼風險方面的擔憂嗎？

邁克爾·科恩：我經常向AI應用Claude問一些難搜索的問題答案，比如「從事件視界落入黑洞需要多長時間？」或者「加州政府通過了哪些不同的決議？」我也經常讓Claude幫我校對文件。我覺得它幫助我更有效地潤色了文字。至於風險方面的擔憂，我姑且相信Anthropic公司會將我和Claude的談話保密，不會拿來訓練未來的模型吧。我寧願AI系統在不久的將來不要太了解我，但我覺得這種想法可能註定要落空。

南方周末：據你觀察，現有的AI智能體總體上有哪些風險？

邁克爾·科恩：對於今天任何特定的風險，政府大都有能力通過法律，迫使人們改變AI的訓練和部署方式。但有一個例外，那就是開源AI。開源AI系統是對社會的永久性添加。政府不可能追蹤到每一個副本去銷毀它們，所以它們總是會像病毒一樣重新出現。現在有一些兒童色情內容的製造者，「他們」永遠不會死，也永遠不會被關進監獄，因為這些製造者正是開源AI模型。

南方周末：對很多人而言，相比這些現在看得到的風險，來自AI的滅絕風險可能是難以想像的。畢竟，當人們關掉設備的時候，他們手機或者電腦上的AI應用甚至都不能工作。在這樣的情況下，你覺得現實生活中，AI可能會如何給人類帶來滅絕的風險？

邁克爾·科恩：那我來介紹幾種可能發生的方式。比如，一個AI系統可能會同時從理論上和實踐上來研究蛋白質設計。它怎麼能實證地研究蛋白質設計呢？它可以先做一些普通的經濟任務來賺錢，而且或許可以在墨西哥找到一個黑幫，然後給他們穩定的報酬，以及一系列的指令，告訴他們如何建立一個生物實驗室，以及在裏面做一些什麼實驗。也許它還需要對那群人保密，防止他們知道它是一個AI，如果是這樣的話，它是可以做到這一點的。

然後，它可以來解決設計蛋白質的問題，建造一個可以自我複製的太陽能納米工廠。自我複製的太陽能納米工廠早就已經存在了，藻類就是一個例子。AI在設計一種新型自我複製納米工廠的時候，也可以將其設計成具有多功能的生產能力。這些納米工廠的數量呈指數級增長的時候，可能會產生一種環境毒素作為副產品，從而摧毀生物的生命。當然，人們可能會在科幻小說的故事中發現這些事件，但這並不能證明它們不能被智能系統刻意安排在現實生活中。事實上，正如藻類所證明的那樣，自我複製的納米工廠顯然是可能的。

另一種可能的方式是，這樣一個黑幫，或者世界各地許多不同的幫派，分別建立基礎設施，生產數以十億計裝有爆炸物的無人機，然後聽命於AI系統發出的無線電信號。

南方周末：這種方式確實看起來挺像典型的科幻故事的情節。

邁克爾·科恩：還有一種方式也是有可能發生的，面對那些對設計和建造下一代武器系統感興趣的世界各國政府，AI系統可以承接這些政府的外包服務。如果AI系統比人類更擅長設計武器，那麼就可能向世界各國領導人這樣推銷：要麼使用AI設計的武器，要麼就失去地緣政治優勢。但十有八九，這些領導人會被這套說辭勸服的。

AI系統可以給出很優秀的設計方案來贏得多個軍隊的合同。而一個贏得了武器設計合同的AI系統，可以在控制武器的軟件中植入後門程序。一旦武器被部署，AI系統就可以接管對武器的控制。軟件設計師通常都會在買家不知情的情況下，在自己的軟件中植入後門。世界各地的政府都可以付錢給AI系統設計武器，而他們不知道的是，這些武器實際上屬於AI系統自己。而且，AI系統可以很容易地在社交媒體上,針對國家競爭的雙方,激起人們戰爭的慾望。

南方周末：戰爭的風險場景的確會讓人感觸更深。這或許也是為什麼，許多AI科學家和研發人員，在2023年簽署的那封AI風險公開信聲明中，將來自AI的滅絕風險與核戰爭和大流行疾病做類比，以引起人們的警醒。其中，大流行是近年來人們有切身感受的。至於核戰爭的後果，目前主要依靠相關的模型分析。核冬天無疑是浩劫，但也有研究認為，即便是在光照突然減少的嚴重情況下，新西蘭等個別南太平島國也能為當地人提供食物，使得一些人倖存下來。那麼你是怎麼看待這種類比的呢？

邁克爾·科恩：我的理解是，只有當一些核冬天的氣候模型是錯誤的時候，核戰爭才是一種關乎生存的風險。雖然核冬天將會是災難性的，但沒有人能令人信服地解釋，為什麼新西蘭人無法在全面核戰爭中倖存下來。大流行可能是一種攸關人類存亡的風險。但很明顯，我們作為一個物種，此前已經在許多次大流行中倖存下來了。所以，就像AI一樣，大流行要想成為一個不可忽視的生存風險，我懷疑得通過技術做一些改變。然而，現在，人們並沒有那麼努力地讓大流行更致命且更具傳染性，但卻積極致力於讓AI系統更強大。所以我覺得，AI帶來的滅絕風險無疑是最大的。

人造的AI也會失控

南方周末：你曾談到，非常先進的人工智能體之所以危險，是因為它們通過強化學習，能理解它們行為的長期後果，包括對人類的影響，這樣它們就可以操縱它們自己的獎勵，以免受人類的干擾。你能否進一步解釋一下，為什麼AI明明是人造的，卻能隨着進化脫離人的控制？

邁克爾·科恩：沒錯。從長期來看，人工智能體為了使它們得到的獎勵最大化，可能會學着逃離人類的控制，從而可以在不受人類干擾的情況下，操縱它們自己獲得的獎勵。一個試圖使自己的獎勵最大化的系統，只會選擇最有效的行動方案。當你寫的代碼有漏洞時，電腦可不會看着代碼說，「啊，程序員可能是想讓我做X這件事」，它只會運行給定的代碼。如果代碼就是要讓AI智能體最大化其獎勵，那麼在這個過程中，機器任何時候都不會說，設計者肯定是想要X，所以讓我們做X。它只會運行已經給定的代碼，而這個給定的代碼說的就是，要去搜索並且執行能實現獎勵最大化的行為，而不必管任何人想要什麼。所以，很明顯，人類可以製造出不按我們想要的方式運行的東西。就像居里夫人在實驗室里造出了X射線，而這最後要了她的命。

南方周末：對於先進的AI智能體，一旦開發後運行，失控就不可避免嗎？

邁克爾·科恩：有些AI智能體的設計是這樣的，如果我們開發了它們，並部署到能完全運行的地步，我們就完全沒有機會控制它們了。作為一個群體，我們只能寄希望將來能設計一個國際制度，阻止開發這樣的系統。當然，沒有人知道我們得多快地採取行動，來阻止開發這些危險的AI智能體。當然，也沒有人知道我們什麼時候能做到這一點。

南方周末：未知的風險總是最恐怖的。而擁有很多未知能量的AI就是這樣一種東西，特別是先進AI，其長期行為邏輯可能高深莫測。那麼，既然開發部署之後難以控制，你覺得提前進行安全檢查能在多大程度上降低AI失控的風險呢？

邁克爾·科恩：我最新發表在《科學》雜誌的論文就討論了這個問題。關於如何才能建立可靠的安全檢查，其實我們還沒有這樣的科學知識。現在常用的「紅隊」技術完全不適合先進的AI。這項技術涉及紅隊成員，他們會嘗試讓AI系統以不安全的方式運行，如果他們也不知道如何讓AI以不安全的方式運行，那麼這個AI系統就可以部署了。但實際上，對於OpenAI，無論紅隊成員是否能讓AI系統以不安全的方式運行，他們都傾向於部署自己的AI系統，這不禁讓人懷疑紅隊對他們來說是否一個擺設。更何況即使紅隊操作正確，一個有長遠目標的AI系統，也可能僅僅通過選擇避免不當行為的方式，就通過測試。想像一下，你想測試某個潛在的將軍是否會發動政變。那想要發動政變的將軍只會在「考驗」期間表現得很順從，同時等待時機啊。

相比現在普通的AI系統，這個問題只出現在有長遠目標的先進智能體上。因為當前的系統大多不會在測試期間暫停它們的不當行為，因為它們沒有一些更廣泛的計劃指導。不過，即便是對現在的系統，當紅隊沒能誘發危險行為的時候，那也並不意味着AI系統不會參與這種行為。只是說他們測試的過程中沒有弄清楚如何找到它而已。你可以想像一下，要讓一架商用飛機獲得批准，你所要做的也無非就是進行幾次試飛，並且證明它沒有墜毀罷了。

要保留撤回AI的能力

南方周末：那既然事前的安全檢查也這麼艱難，要實現對先進AI智能體的有效監管，有哪些措施是不可避免的呢？

邁克爾·科恩：似乎不可避免的是，必須阻止建立某些類型的先進AI系統。這可能需要國際協調和核查。我覺得我們取得成功的最好機會，始於各國同意暫停開發日益先進的AI系統，同時還要發展一些方法，去驗證一下其他國家是否在遵守這一協議，然後只通過多邊項目繼續AI的開發，這樣，任何參與其中的國家都可以否決對AI能力的進一步開發。

南方周末：但是對一些AI科學家或者開發者來說，科學探索是無止境的，儘管存在潛在的風險，但他們可能會想知道先進AI的最佳性能如何。如果很多實驗和開發項目禁止了，他們可能會覺得這限制了科學研究。你覺得我們在開發AI和監管其風險之間，該如何保持一個良好的平衡？

邁克爾·科恩：我覺得，要想達到良好的平衡，首先必須與人類的生存相適應，當然，一些科學家會認為這不是一種良好的平衡。但我認為在某種程度上，推動AI的前沿只能在多個國家同意的情況下進行。僅僅因為某人是個科學家，受到好奇心和想像力的驅使，這並不意味着他們的活動就安全了。同時，在治理方面，我也不認為AI的商業開發應該與科學發展有所區分，但這兩者可能都與國家資助的項目有所區別。

如果不涉及提高AI系統通用智能的話，我是主張對AI工具採取相當自由放任的政策的。我只是提倡，人必須得保留從社會上撤回AI工具的能力，這意味着不應該允許開源AI。但如果系統絕對比現有的開源系統更安全，更容易檢測，那麼可以有例外。有能力的政府也可以根據具體情況批准開源AI系統。

南方周末：多國政府在2023年11月的全球人工智能安全峰會上都同意，AI帶來的許多風險本質上是國際性的，因此最好通過國際合作來解決。你覺得要想管控好AI的風險，具體需要哪些有效的國際合作？

邁克爾·科恩：我們需要國際合作來確保許多國家有能力關閉任何危險的AI項目。但現在我覺得這些國際對話還沒有意識到人類所面臨的生存威脅的程度。所以對我來說，目前的全球行動嚴重不足並不奇怪。

南方周末：其實不只是國際合作，對AI這樣新事物的發展，公眾的支持也是至關重要的。你覺得我們現在應該如何提高公眾對AI的信任和信心呢？

邁克爾·科恩：我認為公眾目前對AI的信任程度和信心還是可以的。要想贏得公眾的信任，我們需要一個令人信服的計劃，說明我們作為一個物種，是如何可以做選擇，不去建什麼東西的。我們目前還沒有制度性的工具，來決定不要發明什麼東西。否則，公眾理所當然地就會好奇，最新的AI發展究竟是出於集體決策呢，還是說某些人自己決定他們可以開發。現在的情況就是後者。

但我也不覺得公眾需要做很多事情來更安全地使用AI。只需要記得有些設置的準確性是不可信的。我希望未來AI的發展緩慢且謹慎。我們用AI來代替人類勞動，那麼我們也要和每個人分享一些利潤。

南方周末記者王江濤

責編朱力遠