Google DeepMind 推出評估AI模型危險性的新框架

2024年05月18日17:45:16 科技 1454

Google DeepMind 周五發佈了一個框架,用於窺視人工智能模型內部,以確定它們是否正在接近危險能力。周五發佈的論文描述了這樣一個過程:每當用於訓練模型的計算能力提高六倍,或者微調三個月,DeepMind 的模型就會被重新評估。在兩次評估之間,DeepMind 將設計預警評估。

Google DeepMind 推出評估AI模型危險性的新框架 - 天天要聞

根據一份與 Semafor 獨家分享的聲明,DeepMind 將與其他公司、學術界和立法者合作,共同完善該框架。該公司計劃在2025年前開始實施其審計工具。

如今,評估功能強大的前沿人工智能模型更像是一個臨時過程,隨着研究人員開發新技術而不斷演變。"紅隊"會花費數周或數月的時間對其進行測試,嘗試可能繞過保障措施的不同提示。然後,公司會採用各種技術,從強化學習到特殊提示,使模型符合要求。

這種方法對現在的模型很有效,因為它們還不夠強大,不足以構成太大的威脅,但研究人員認為,隨着模型能力的增強,需要一個更強大的過程。批評者擔心,當人們意識到這種技術已經走得太遠時,為時已晚。

DeepMind 發佈的"前沿安全框架"希望解決這個問題。這是包括 MetaOpenAI 和微軟在內的主要科技公司為減輕人們對人工智能的擔憂而宣布的幾種方法之一。

該公司表示:"儘管這些風險超出了現有模型的能力範圍,但我們希望實施和改進該框架將有助於我們做好應對這些風險的準備。"

Google DeepMind 推出評估AI模型危險性的新框架 - 天天要聞

DeepMind 開發人工智能模型"預警"系統已有一年多時間。它還發表了關於評估模型的新方法的論文,這些方法遠遠超出了目前大多數公司所使用的方法。

前沿模型框架將這些進展納入一套簡潔的協議中,包括對模型的持續評估,以及研究人員在發現所謂"臨界能力水平"時應採取的緩解方法。這可能是指模型能夠通過操縱人類對其施加意志,在人工智能研究領域被稱為"超常代理",也可能是指模型具有編寫複雜惡意軟件的能力。

DeepMind 為四個領域設定了具體的關鍵能力級別:自主、生物安全、網絡安全和機器學習研發。

該公司表示:"在降低風險與促進獲取和創新之間取得最佳平衡,對於負責任地發展人工智能至關重要。"DeepMind 將於下周在首爾舉行的人工智能安全峰會上討論該框架,屆時其他行業領袖也將出席。

令人鼓舞的是,DeepMind 的人工智能研究人員正在用更科學的方法確定人工智能模型內部發生了什麼,儘管他們還有很長的路要走。

研究人員在能力方面取得突破的同時,也在提高他們理解並最終控制這些軟件的能力,這對人工智能安全也很有幫助。

不過,今天發佈的論文對如何進行這些評估的技術細節着墨不多。就目前而言,可以說我們還不知道目前的技術是否能讓這個框架取得成功。

這其中還有一個有趣的監管因素。由加州參議員斯科特-維納(Scott Wiener)發起的一項新的人工智能綜合法案將要求人工智能公司在訓練模型之前對其危險性進行評估。這個框架是目前看到的第一個可能使遵守該法律成為可能的框架。但同樣還不清楚技術上是否可行。

還有一點:構建這些技術還有另一種用途:它可以幫助公司預測人工智能模型的能力在未來數月或數年內會發生怎樣的變化。這些知識可以幫助產品團隊更快地設計出新產品,從而為Google和其他有能力進行這些評估的公司帶來優勢。

了解更多:

https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/

科技分類資訊推薦

無線信號增強秘籍,橋接和中繼模式哪個更強? - 天天要聞

無線信號增強秘籍,橋接和中繼模式哪個更強?

【ZOL中關村在線原創技術解析】隨着無線通信與計算機技術飛速發展,人們愈發渴望隨時隨地享受穩定的數據通信服務。無線路由器作為無線網絡核心設備,作用關鍵。但當其信號覆蓋不足,如穿過兩堵牆後信號微弱時,可通過無線橋接或中繼模式連接兩個無線路由器,擴展網絡、增強信號。中繼模式和橋接模式雖都能擴展網絡覆蓋,但...
流暢更耐用 魅族Note 16將預裝Flyme 12 - 天天要聞

流暢更耐用 魅族Note 16將預裝Flyme 12

魅族官方透露,將於5月發佈的魅族Note 16系列將出廠預裝Flyme 12新系統,這也是Flyme系統大版本首次在非旗艦機型上首發。魅族Note 16搭載紫光展銳T765處理器,配備6.78英寸LCD屏,分辨率達2460*1080。後置採用八邊形相機模組,由5000萬像素主攝和200萬像素鏡頭組成。續航方面,內置6600mAh大容量電池,支持40W有線充電
跨境電商迎「成本地震」,行業洗牌加速 - 天天要聞

跨境電商迎「成本地震」,行業洗牌加速

【環球網財經綜合報道】近日,美國正式終止了對中國價值不超過800美元的小額包裹免徵關稅的政策,這一變化引發了中國跨境電商行業的連鎖反應。多家物流公司隨即調整策略,物流費用普遍上漲,並增加了高額預收稅金。(圖片來源:東方IC)美國的800美元小額免稅政策(De Minimis)自2016年實施以來,極大地推動了全球跨境電商...
音樂節超時粉絲吵上熱搜!羅雲熙周深發佈聯合說明 - 天天要聞

音樂節超時粉絲吵上熱搜!羅雲熙周深發佈聯合說明

5月4日,太湖灣音樂節組委會「關於5月1日太湖灣音樂節的相關討論」,聯合羅雲熙工作室、周深工作室作出如下說明:在演出過程中,現場因節奏調整產生變化,相關團隊均已積極協作,確保了整體流程順利完成。對於由此引發的相關關注,我們充分理解大家的關心
國外一公司推出「空中單車」:可垂直起飛、極速200公里/時 - 天天要聞

國外一公司推出「空中單車」:可垂直起飛、極速200公里/時

快科技5月5日消息,近日,國外一家名為Volonaut的新成立公司推出了一款 「空中單車」,這是一款具有創新性和顛覆性的飛行載具。其由Jetson One(註:一款飛行器)創造者托馬斯・帕坦(Tomasz Patan)在波蘭研發,其設計靈感源自科幻電影,尤其是《星球大戰》中的飛行摩托。外觀上沒有傳統飛行器的冗餘結構,僅見容納推進...
全球首款雙形態人形機械人正式發佈! - 天天要聞

全球首款雙形態人形機械人正式發佈!

前言首次定義具身人形機械人商用範式。近日消息,全球首款雙形態人形機械人——數字華夏IP系列開山之作星行俠P01正式發佈。顏值高、智商高、易使用首次定義具身人形機械人商用範式據悉,數字華夏推出IP系列的初衷,是打造屬於這個時代的「商用機械人」。「外形潮流時尚、智商情商兼具、使用維護極簡,首次定義具身人形機...
三星One UI 8測試版或下月推出 給後續修復留出時間 - 天天要聞

三星One UI 8測試版或下月推出 給後續修復留出時間

【CNMO科技消息】三星已經開始內部測試全新的One UI 8系統,同時也在包括Galaxy Z Flip6在內的多款設備上進行適配測試。按照目前的進度來看,這次更新的到來時間可能比很多人預想得更早,有可能會在今年7月或8月之前就正式推出。 和以往一樣,三星應該會先上線One UI 8的測試版計劃,給部分用戶提前嘗鮮的機會。根據最新消...
蘋果引入Anthropic開發的Claude AI系統 欲放棄自研? - 天天要聞

蘋果引入Anthropic開發的Claude AI系統 欲放棄自研?

【CNMO科技消息】蘋果最近開始引入Anthropic公司開發的Claude AI系統,用於協助其工程師更高效地編寫代碼。 長期以來,蘋果一直堅持自主研發核心技術,很少依賴外部力量。但這一次,它選擇與Anthropic合作,將後者的Claude Sonnet模型集成到自家開發工具Xcode的升級版本中。據彭博社報道,這項合作已經開始在內部落地,主要...
6 大升級!Apple Watch SE 3 入門款到底有多能打? - 天天要聞

6 大升級!Apple Watch SE 3 入門款到底有多能打?

文 | 路邊同學還有 4 個月,蘋果將推出新一代入門級智能手錶 —— Apple Watch SE 3。這款原計劃在 2024 年發佈的機型,因市場節奏調整延後至今,卻也讓外界對其升級細節有了更充分的爆料空間。