Google DeepMind 推出评估AI模型危险性的新框架

2024年05月18日17:45:16 科技 1454

Google DeepMind 周五发布了一个框架,用于窥视人工智能模型内部,以确定它们是否正在接近危险能力。周五发布的论文描述了这样一个过程:每当用于训练模型的计算能力提高六倍,或者微调三个月,DeepMind 的模型就会被重新评估。在两次评估之间,DeepMind 将设计预警评估。

Google DeepMind 推出评估AI模型危险性的新框架 - 天天要闻

根据一份与 Semafor 独家分享的声明,DeepMind 将与其他公司、学术界和立法者合作,共同完善该框架。该公司计划在2025年前开始实施其审计工具。

如今,评估功能强大的前沿人工智能模型更像是一个临时过程,随着研究人员开发新技术而不断演变。"红队"会花费数周或数月的时间对其进行测试,尝试可能绕过保障措施的不同提示。然后,公司会采用各种技术,从强化学习到特殊提示,使模型符合要求。

这种方法对现在的模型很有效,因为它们还不够强大,不足以构成太大的威胁,但研究人员认为,随着模型能力的增强,需要一个更强大的过程。批评者担心,当人们意识到这种技术已经走得太远时,为时已晚。

DeepMind 发布的"前沿安全框架"希望解决这个问题。这是包括 MetaOpenAI 和微软在内的主要科技公司为减轻人们对人工智能的担忧而宣布的几种方法之一。

该公司表示:"尽管这些风险超出了现有模型的能力范围,但我们希望实施和改进该框架将有助于我们做好应对这些风险的准备。"

Google DeepMind 推出评估AI模型危险性的新框架 - 天天要闻

DeepMind 开发人工智能模型"预警"系统已有一年多时间。它还发表了关于评估模型的新方法的论文,这些方法远远超出了目前大多数公司所使用的方法。

前沿模型框架将这些进展纳入一套简洁的协议中,包括对模型的持续评估,以及研究人员在发现所谓"临界能力水平"时应采取的缓解方法。这可能是指模型能够通过操纵人类对其施加意志,在人工智能研究领域被称为"超常代理",也可能是指模型具有编写复杂恶意软件的能力。

DeepMind 为四个领域设定了具体的关键能力级别:自主、生物安全、网络安全和机器学习研发。

该公司表示:"在降低风险与促进获取和创新之间取得最佳平衡,对于负责任地发展人工智能至关重要。"DeepMind 将于下周在首尔举行的人工智能安全峰会上讨论该框架,届时其他行业领袖也将出席。

令人鼓舞的是,DeepMind 的人工智能研究人员正在用更科学的方法确定人工智能模型内部发生了什么,尽管他们还有很长的路要走。

研究人员在能力方面取得突破的同时,也在提高他们理解并最终控制这些软件的能力,这对人工智能安全也很有帮助。

不过,今天发布的论文对如何进行这些评估的技术细节着墨不多。就目前而言,可以说我们还不知道目前的技术是否能让这个框架取得成功。

这其中还有一个有趣的监管因素。由加州参议员斯科特-维纳(Scott Wiener)发起的一项新的人工智能综合法案将要求人工智能公司在训练模型之前对其危险性进行评估。这个框架是目前看到的第一个可能使遵守该法律成为可能的框架。但同样还不清楚技术上是否可行。

还有一点:构建这些技术还有另一种用途:它可以帮助公司预测人工智能模型的能力在未来数月或数年内会发生怎样的变化。这些知识可以帮助产品团队更快地设计出新产品,从而为Google和其他有能力进行这些评估的公司带来优势。

了解更多:

https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/

科技分类资讯推荐

醒醒吧!CEO猛吹AI写95%代码,绩效考核却还在拼程序员手速? - 天天要闻

醒醒吧!CEO猛吹AI写95%代码,绩效考核却还在拼程序员手速?

编译 | Tina在 AI 工具席卷开发圈之后,一批技术老兵的工作方式悄然发生变化。Superhuman (原生 AI 邮件应用)工程负责人 Loic Houssier 正是这场转型的亲历者之一。这位出身数学背景、拥有密码学工程经验的 VP,曾带领团队经历了从大型 B2C 到核心底层架构的复杂挑战。而当 ChatGPT、Claude Code 等工具走进日常
从领先到落后:英特尔正经历“寒冬” - 天天要闻

从领先到落后:英特尔正经历“寒冬”

【环球网科技综合报道】7月11日,据外媒报道,英特尔首席执行官陈立武近日在发表内部讲话时直言英特尔已不再是领先芯片制造商,甚至不在前十。其市值如今仅约1000亿美元,与18个月前相比大幅缩水,而英伟达市值却一度突破4万亿美元,形成鲜明对比。“二三十年前,我们确实是行业领导者。可如今的世界已经变了,我们已不在全...
“中国太酷了”!硬核实力圈粉世界 - 天天要闻

“中国太酷了”!硬核实力圈粉世界

日前举行的国新办新闻发布会上,有记者提到,随着大量海外博主分享来华见闻,“中国变酷了”的印象被越来越多全球网友所认同。对此,国家发展改革委主任郑栅洁表示,这背后反映了中国的综合国力。中国变酷了!酷在哪里?
华为Pura 80 Ultra国际版亮相:系统开机是EMUI 15.0,电池容量为5170mAh - 天天要闻

华为Pura 80 Ultra国际版亮相:系统开机是EMUI 15.0,电池容量为5170mAh

当地时间7月10日,华为在迪拜推出全新的Pura 80 Ultra影像旗舰,售价是5099阿联酋迪拉姆,约合人民币9961元。对比国行版,Pura 80 Ultra国际版有两大变化,一是系统调整为EMUI 15.0,国行版系统是鸿蒙5.1,二是电池容量为5170mAh,国行版电池容量是5700mAh。来源 江南都市报、快科技编辑 贾凯 审核 蒋波 陈洁...
AMD下代桌面锐龙处理器:N2工艺、Zen6架构、更多内核、依旧AM5插槽 - 天天要闻

AMD下代桌面锐龙处理器:N2工艺、Zen6架构、更多内核、依旧AM5插槽

有关于AMD下代桌面端锐龙处理器的更多信息浮出水面。AMD下代桌面端锐龙处理器代号“Medusa Ridge”,将采用全新的Zen6架构,该架构将使用TSMC的N2(2nm)工艺节点构建CCD,相比于前代Zen5架构的台积电N4P工艺节点,N2工艺的晶体管密度将显著提升。此前单CCD的最大核心数量为8个,而在Medusa Ridge上AMD可能会将单个CCD
AI终结传统软件业,如同互联网终结传统媒体 - 天天要闻

AI终结传统软件业,如同互联网终结传统媒体

AI编程工具正推动软件行业走向“峰值时刻”。近日,芯片金融分析公司Fabricated Knowledge的创始人Doug O'Laughlin发表文章称,生成式AI正以类似互联网颠覆传统媒体的方式,重塑软件行业的格局。文章指出,AI工具,比如Cursor和Claude Code,正在让编写代码的成本和时间大幅下降,过去需要每token数千美元才能完成的开发
英特尔CEO陈立武坦言:公司已跌出半导体行业前十 - 天天要闻

英特尔CEO陈立武坦言:公司已跌出半导体行业前十

【TechWeb】7月11日消息,据外媒报道,英特尔CEO陈立武在内部讲话中坦言,公司已跌出半导体行业前十。陈立武表示,20到30年前,英特尔确实是领导者,世界已经发生了变化。我们现在已经不是排名前十的半导体公司了。有报道称,英特尔公司发言人后续解释称其所指为 "市值" 而非技术。在过去的 18 个月里,英特尔的市值从 202...