Google DeepMind 推出評估AI模型危險性的新框架

2024年05月18日17:45:16 科技 1454

Google DeepMind 周五發佈了一個框架,用於窺視人工智能模型內部,以確定它們是否正在接近危險能力。周五發佈的論文描述了這樣一個過程:每當用於訓練模型的計算能力提高六倍,或者微調三個月,DeepMind 的模型就會被重新評估。在兩次評估之間,DeepMind 將設計預警評估。

Google DeepMind 推出評估AI模型危險性的新框架 - 天天要聞

根據一份與 Semafor 獨家分享的聲明,DeepMind 將與其他公司、學術界和立法者合作,共同完善該框架。該公司計劃在2025年前開始實施其審計工具。

如今,評估功能強大的前沿人工智能模型更像是一個臨時過程,隨着研究人員開發新技術而不斷演變。"紅隊"會花費數周或數月的時間對其進行測試,嘗試可能繞過保障措施的不同提示。然後,公司會採用各種技術,從強化學習到特殊提示,使模型符合要求。

這種方法對現在的模型很有效,因為它們還不夠強大,不足以構成太大的威脅,但研究人員認為,隨着模型能力的增強,需要一個更強大的過程。批評者擔心,當人們意識到這種技術已經走得太遠時,為時已晚。

DeepMind 發佈的"前沿安全框架"希望解決這個問題。這是包括 MetaOpenAI 和微軟在內的主要科技公司為減輕人們對人工智能的擔憂而宣布的幾種方法之一。

該公司表示:"儘管這些風險超出了現有模型的能力範圍,但我們希望實施和改進該框架將有助於我們做好應對這些風險的準備。"

Google DeepMind 推出評估AI模型危險性的新框架 - 天天要聞

DeepMind 開發人工智能模型"預警"系統已有一年多時間。它還發表了關於評估模型的新方法的論文,這些方法遠遠超出了目前大多數公司所使用的方法。

前沿模型框架將這些進展納入一套簡潔的協議中,包括對模型的持續評估,以及研究人員在發現所謂"臨界能力水平"時應採取的緩解方法。這可能是指模型能夠通過操縱人類對其施加意志,在人工智能研究領域被稱為"超常代理",也可能是指模型具有編寫複雜惡意軟件的能力。

DeepMind 為四個領域設定了具體的關鍵能力級別:自主、生物安全、網絡安全和機器學習研發。

該公司表示:"在降低風險與促進獲取和創新之間取得最佳平衡,對於負責任地發展人工智能至關重要。"DeepMind 將於下周在首爾舉行的人工智能安全峰會上討論該框架,屆時其他行業領袖也將出席。

令人鼓舞的是,DeepMind 的人工智能研究人員正在用更科學的方法確定人工智能模型內部發生了什麼,儘管他們還有很長的路要走。

研究人員在能力方面取得突破的同時,也在提高他們理解並最終控制這些軟件的能力,這對人工智能安全也很有幫助。

不過,今天發佈的論文對如何進行這些評估的技術細節着墨不多。就目前而言,可以說我們還不知道目前的技術是否能讓這個框架取得成功。

這其中還有一個有趣的監管因素。由加州參議員斯科特-維納(Scott Wiener)發起的一項新的人工智能綜合法案將要求人工智能公司在訓練模型之前對其危險性進行評估。這個框架是目前看到的第一個可能使遵守該法律成為可能的框架。但同樣還不清楚技術上是否可行。

還有一點:構建這些技術還有另一種用途:它可以幫助公司預測人工智能模型的能力在未來數月或數年內會發生怎樣的變化。這些知識可以幫助產品團隊更快地設計出新產品,從而為Google和其他有能力進行這些評估的公司帶來優勢。

了解更多:

https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/

科技分類資訊推薦

突發,聊聊Manus「刪博跑路」 - 天天要聞

突發,聊聊Manus「刪博跑路」

摘要:「如果最後有不錯的結果,證明作為中國出生的創始人,也能在新的環境下做好全球化的產品,那就太好了」鳳凰網科技 出品作者|董雨晴7月11日,AI Agent產品Manus官方賬號清空了發佈在微博、小紅書的內容。兩天前,Manus剛剛陷入裁
AI取代硅谷程序員?這些美國大廠高管這麼說 - 天天要聞

AI取代硅谷程序員?這些美國大廠高管這麼說

人工智能(AI)正在加速重塑全球勞動力市場。 當地時間10日,美國招聘平台Indeed及員工評價網站Glassdoor宣布,為應對人工智能帶來的產業變革,將裁減約1300個職位,占集團員工總數的6%。微軟首席商業官阿爾索夫(Judson Althoff)稱,AI已承擔35%的產品代碼編寫工作,顯著加快了產品開發周期。 美國威達信集團(Marsh McL...
配備榮耀綠洲護眼屏,榮耀X70還有超窄邊框設計 - 天天要聞

配備榮耀綠洲護眼屏,榮耀X70還有超窄邊框設計

7 月 11 日消息,榮耀官方表示即將發佈的 X70 新品將配備一塊行業罕見的好屏幕,擁有 1.5K 分辨率、6000nit 超高亮度,屏幕黑邊甚至控制在 1.3mm,帶來更沉浸的體驗。根據此前曝光的信息,榮耀X70 支持 IP66、IP68、IP69、IP69K 級防塵防水,其中 IP69K 級可以讓設備在高壓、高溫水流衝擊下也能有防護能力。不僅如此,榮耀
零跑全新C11上市,14.98萬起售 - 天天要聞

零跑全新C11上市,14.98萬起售

7月10日,零跑汽車旗下智能越享中型SUV——全新C11正式上市,上市指導價14.98-16.58萬元。零跑C11上市4年來,累計銷量已突破25萬台,是零跑的重要的走量車型,全新C11在造型設計、智能座艙、續航性能、輔助駕駛、駕控體驗及安全基因等六大維度實現全面升級。此次上市的全新C11延續純電與增程雙動力版本,其中,純電車型搭載...
張旭院士:我國類腦智能規模應用潛力巨大 - 天天要聞

張旭院士:我國類腦智能規模應用潛力巨大

7月11日,省加快推進現代化產業體系建設專題會議(人工智能與機械人產業專場)在廣州舉行。現場,來自相關領域的專家學者、企業家、人大代表、研究機構代表踴躍發言,為廣東人工智能與機械人產業的發展積極建言、出謀劃策。中國科學院院士、廣東省智能科學與技術研究院院長張旭表示,類腦智能技術作為新一代智能技術的核心...