Google DeepMind 推出評估AI模型危險性的新框架

2024年05月18日17:45:16 科技 1454

Google DeepMind 周五發布了一個框架,用於窺視人工智慧模型內部,以確定它們是否正在接近危險能力。周五發布的論文描述了這樣一個過程:每當用於訓練模型的計算能力提高六倍,或者微調三個月,DeepMind 的模型就會被重新評估。在兩次評估之間,DeepMind 將設計預警評估。

Google DeepMind 推出評估AI模型危險性的新框架 - 天天要聞

根據一份與 Semafor 獨家分享的聲明,DeepMind 將與其他公司、學術界和立法者合作,共同完善該框架。該公司計劃在2025年前開始實施其審計工具。

如今,評估功能強大的前沿人工智慧模型更像是一個臨時過程,隨著研究人員開發新技術而不斷演變。"紅隊"會花費數周或數月的時間對其進行測試,嘗試可能繞過保障措施的不同提示。然後,公司會採用各種技術,從強化學習到特殊提示,使模型符合要求。

這種方法對現在的模型很有效,因為它們還不夠強大,不足以構成太大的威脅,但研究人員認為,隨著模型能力的增強,需要一個更強大的過程。批評者擔心,當人們意識到這種技術已經走得太遠時,為時已晚。

DeepMind 發布的"前沿安全框架"希望解決這個問題。這是包括 MetaOpenAI 和微軟在內的主要科技公司為減輕人們對人工智慧的擔憂而宣布的幾種方法之一。

該公司表示:"儘管這些風險超出了現有模型的能力範圍,但我們希望實施和改進該框架將有助於我們做好應對這些風險的準備。"

Google DeepMind 推出評估AI模型危險性的新框架 - 天天要聞

DeepMind 開發人工智慧模型"預警"系統已有一年多時間。它還發表了關於評估模型的新方法的論文,這些方法遠遠超出了目前大多數公司所使用的方法。

前沿模型框架將這些進展納入一套簡潔的協議中,包括對模型的持續評估,以及研究人員在發現所謂"臨界能力水平"時應採取的緩解方法。這可能是指模型能夠通過操縱人類對其施加意志,在人工智慧研究領域被稱為"超常代理",也可能是指模型具有編寫複雜惡意軟體的能力。

DeepMind 為四個領域設定了具體的關鍵能力級別:自主、生物安全、網路安全和機器學習研發。

該公司表示:"在降低風險與促進獲取和創新之間取得最佳平衡,對於負責任地發展人工智慧至關重要。"DeepMind 將於下周在首爾舉行的人工智慧安全峰會上討論該框架,屆時其他行業領袖也將出席。

令人鼓舞的是,DeepMind 的人工智慧研究人員正在用更科學的方法確定人工智慧模型內部發生了什麼,儘管他們還有很長的路要走。

研究人員在能力方面取得突破的同時,也在提高他們理解並最終控制這些軟體的能力,這對人工智慧安全也很有幫助。

不過,今天發布的論文對如何進行這些評估的技術細節著墨不多。就目前而言,可以說我們還不知道目前的技術是否能讓這個框架取得成功。

這其中還有一個有趣的監管因素。由加州參議員斯科特-維納(Scott Wiener)發起的一項新的人工智慧綜合法案將要求人工智慧公司在訓練模型之前對其危險性進行評估。這個框架是目前看到的第一個可能使遵守該法律成為可能的框架。但同樣還不清楚技術上是否可行。

還有一點:構建這些技術還有另一種用途:它可以幫助公司預測人工智慧模型的能力在未來數月或數年內會發生怎樣的變化。這些知識可以幫助產品團隊更快地設計出新產品,從而為Google和其他有能力進行這些評估的公司帶來優勢。

了解更多:

https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/

科技分類資訊推薦

突發,華為nova14這次要降維打擊! - 天天要聞

突發,華為nova14這次要降維打擊!

時間已經來到5月份了,距離上一代華為nova13系列的發布,已經過去7個月了。按照目前華為新機的發布排期,也輪到華為nova新機的發布了。而且,這次華為nova14系列的硬體配置很高,據稱將要降維打擊。根據渠道消息顯示,華為已經正在準備這個
年薪3.63億元!黃仁勛,基本工資10年來首漲 - 天天要聞

年薪3.63億元!黃仁勛,基本工資10年來首漲

據新浪財經報道,根據英偉達於當地時間5月1日遞交給美國證交所(SEC)的一份新文件顯示,黃仁勛2025財年的基本年薪漲至150萬美元,較2024財年增長了49%。他的可變現金也比2024財年增加了100萬美元,增幅為50%。
哪吒汽車App被曝斷網!官網已無法訪問 - 天天要聞

哪吒汽車App被曝斷網!官網已無法訪問

5月4日,哪吒汽車再次被曝出App斷網的問題,相關話題也迅速登上抖音、微博等平台熱搜。據多位哪吒車主在社交平台發布的消息,從5月2日開始,不少車主都遇到了哪吒汽車App斷網、App控車無法使用等問題。
360雲盤使用教程:存儲與同步文件更便捷 - 天天要聞

360雲盤使用教程:存儲與同步文件更便捷

初次使用360雲盤的用戶可能會感到困惑,不清楚如何操作。下面我來介紹其使用方法。360雲盤有多個版本,今天主要講解客戶端的使用,其他版本與此類似。掌握客戶端的用法後,其餘版本也就容易理解了。1、 首先,打開瀏覽器,在地址欄輸入360雲盤客戶端,然後進行搜索。2、 第二步,選擇下載PC版,以好搜為例,其他軟體操作類...
Win7文件夾加密軟體:保護您的隱私和重要文件 - 天天要聞

Win7文件夾加密軟體:保護您的隱私和重要文件

我的電腦長期使用Win7系統,我對其情有獨鍾。有次朋友問起,是否知道Win7文件夾加密軟體?這類軟體確實存在,今天就來為大家詳細介紹這款實用工具的功能與特點。1、 下載安裝win7文件夾加密軟體十分簡便,只需輕點一下即可開始安裝。2、 接著,我打開了軟體中的加密文件。3、 選中我們的win7文件夾即可。4、 護密軟體會彈出...
保障隱私:免費文件夾加密軟體推薦 - 天天要聞

保障隱私:免費文件夾加密軟體推薦

網上有許多免費的文件夾加密軟體,但並非都好用。這裡介紹一款實用的免費工具,值得一試。1、 讓我們下載免費的文件夾加密軟體來保護隱私。2、 安裝完成後,運行軟體並點擊加密文件夾。3、 選擇一個需要加密的文件夾,例如名為工作重要內容的文件夾。4、 為文件夾設置密碼後,採用閃電加密方式保護。5、 軟體開始快速加密,...
文件夾加密軟體使用指南 - 天天要聞

文件夾加密軟體使用指南

想給保密文件加密卻不知如何操作?其實很簡單,只需下載文件夾加密軟體。下面小編就為大家講解如何使用該軟體進行文件加密。1、 首先,從百度搜索易捷文件夾加密軟體,進入任意網頁下載安裝,這一步不再詳述,相信大家都懂。2、 點擊後會出現一個選擇文件夾的窗口,我們需要選擇文件夾,並記得文件夾的存放位置,否則怎麼找...