Google DeepMind 推出評估AI模型危險性的新框架

2024年05月18日17:45:16 科技 1454

Google DeepMind 周五發佈了一個框架,用於窺視人工智能模型內部,以確定它們是否正在接近危險能力。周五發佈的論文描述了這樣一個過程:每當用於訓練模型的計算能力提高六倍,或者微調三個月,DeepMind 的模型就會被重新評估。在兩次評估之間,DeepMind 將設計預警評估。

Google DeepMind 推出評估AI模型危險性的新框架 - 天天要聞

根據一份與 Semafor 獨家分享的聲明,DeepMind 將與其他公司、學術界和立法者合作,共同完善該框架。該公司計劃在2025年前開始實施其審計工具。

如今,評估功能強大的前沿人工智能模型更像是一個臨時過程,隨着研究人員開發新技術而不斷演變。"紅隊"會花費數周或數月的時間對其進行測試,嘗試可能繞過保障措施的不同提示。然後,公司會採用各種技術,從強化學習到特殊提示,使模型符合要求。

這種方法對現在的模型很有效,因為它們還不夠強大,不足以構成太大的威脅,但研究人員認為,隨着模型能力的增強,需要一個更強大的過程。批評者擔心,當人們意識到這種技術已經走得太遠時,為時已晚。

DeepMind 發佈的"前沿安全框架"希望解決這個問題。這是包括 MetaOpenAI 和微軟在內的主要科技公司為減輕人們對人工智能的擔憂而宣布的幾種方法之一。

該公司表示:"儘管這些風險超出了現有模型的能力範圍,但我們希望實施和改進該框架將有助於我們做好應對這些風險的準備。"

Google DeepMind 推出評估AI模型危險性的新框架 - 天天要聞

DeepMind 開發人工智能模型"預警"系統已有一年多時間。它還發表了關於評估模型的新方法的論文,這些方法遠遠超出了目前大多數公司所使用的方法。

前沿模型框架將這些進展納入一套簡潔的協議中,包括對模型的持續評估,以及研究人員在發現所謂"臨界能力水平"時應採取的緩解方法。這可能是指模型能夠通過操縱人類對其施加意志,在人工智能研究領域被稱為"超常代理",也可能是指模型具有編寫複雜惡意軟件的能力。

DeepMind 為四個領域設定了具體的關鍵能力級別:自主、生物安全、網絡安全和機器學習研發。

該公司表示:"在降低風險與促進獲取和創新之間取得最佳平衡,對於負責任地發展人工智能至關重要。"DeepMind 將於下周在首爾舉行的人工智能安全峰會上討論該框架,屆時其他行業領袖也將出席。

令人鼓舞的是,DeepMind 的人工智能研究人員正在用更科學的方法確定人工智能模型內部發生了什麼,儘管他們還有很長的路要走。

研究人員在能力方面取得突破的同時,也在提高他們理解並最終控制這些軟件的能力,這對人工智能安全也很有幫助。

不過,今天發佈的論文對如何進行這些評估的技術細節着墨不多。就目前而言,可以說我們還不知道目前的技術是否能讓這個框架取得成功。

這其中還有一個有趣的監管因素。由加州參議員斯科特-維納(Scott Wiener)發起的一項新的人工智能綜合法案將要求人工智能公司在訓練模型之前對其危險性進行評估。這個框架是目前看到的第一個可能使遵守該法律成為可能的框架。但同樣還不清楚技術上是否可行。

還有一點:構建這些技術還有另一種用途:它可以幫助公司預測人工智能模型的能力在未來數月或數年內會發生怎樣的變化。這些知識可以幫助產品團隊更快地設計出新產品,從而為Google和其他有能力進行這些評估的公司帶來優勢。

了解更多:

https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/

科技分類資訊推薦

清華專家破百年陳規!滬上論壇曝電力革新,陳磊構想太敢了 - 天天要聞

清華專家破百年陳規!滬上論壇曝電力革新,陳磊構想太敢了

聽說了嗎?清華大學的專家居然說要徹底打破電力系統運行了上百年的規矩!就在上海那場新能源論壇上,陳磊研究員拋出個重磅觀點 —— 以後用電不用再看頻率臉色,有功功率想咋調就咋調!這事兒要是真能成,咱們家裡的空調、電動車充電可就再也不會因為電網不
消費活力釋放,上海零售商業形態向「文商旅體展」融合演進 - 天天要聞

消費活力釋放,上海零售商業形態向「文商旅體展」融合演進

2025年二季度,在上海市政府經濟刺激方案推動下,上海商業市場消費活力逐步釋放,但零售物業租賃指標的復蘇態勢仍顯平緩。核心商圈平均租金為1877元/平方米/月,平均出租率為94.71%,整體表現與去年同期持平,其中徐家匯、陸家嘴等商圈憑藉成熟商業生態,表現相對突出。但與非核心商圈相比,從存量、新增供應、凈吸納量等指...
OPPO K13 Turbo 系列真機曝光,7 月 21 日發佈 - 天天要聞

OPPO K13 Turbo 系列真機曝光,7 月 21 日發佈

IT之家 7 月 11 日消息,博主 @i冰宇宙 今日分享了一款帶保密殼的新機真機圖,配備 RGB 燈效以及主動散熱風扇,預計為剛剛官宣的 OPPO K13 Turbo 系列。IT之家注意到,OPPO K13 Turbo 系列將於 7 月 21 日發佈,在 GeekBench 6.3.0 中單核成績為 2156 分,多核成績為 6652 分,預計搭載高通驍龍
醒醒吧!CEO猛吹AI寫95%代碼,績效考核卻還在拼程序員手速? - 天天要聞

醒醒吧!CEO猛吹AI寫95%代碼,績效考核卻還在拼程序員手速?

編譯 | Tina在 AI 工具席捲開發圈之後,一批技術老兵的工作方式悄然發生變化。Superhuman (原生 AI 郵件應用)工程負責人 Loic Houssier 正是這場轉型的親歷者之一。這位出身數學背景、擁有密碼學工程經驗的 VP,曾帶領團隊經歷了從大型 B2C 到核心底層架構的複雜挑戰。而當 ChatGPT、Claude Code 等工具走進日常
從領先到落後:英特爾正經歷「寒冬」 - 天天要聞

從領先到落後:英特爾正經歷「寒冬」

【環球網科技綜合報道】7月11日,據外媒報道,英特爾首席執行官陳立武近日在發表內部講話時直言英特爾已不再是領先芯片製造商,甚至不在前十。其市值如今僅約1000億美元,與18個月前相比大幅縮水,而英偉達市值卻一度突破4萬億美元,形成鮮明對比。「二三十年前,我們確實是行業領導者。可如今的世界已經變了,我們已不在全...