康奈尔团队提出攻击语言模型新方法,能通过输出来重构输入

2024年05月12日18:05:12 科技 1850

近日,美国康奈尔大学博士生赵文婷和所在团队提出了一种攻击语言模型的新方法,可以通过语言模型的输出来重构语言模型的输入。



康奈尔团队提出攻击语言模型新方法,能通过输出来重构输入 - 天天要闻

图 | 赵文婷(来源:赵文婷)


OpenAIChatGPT 语言模型为例, 它会根据用户的 prompts 计算出一个概率分布,这个概率分布会告诉用户接下来的输出是什么。


那么,这个概率分布是否也可以用来重构 prompts?而本次研究则展示了通过概率分布,所能实现的高精度重构提示。


这一课题的意义在于:很多商家在提供语言模型的服务时,语言模型里往往都有一些没有展示给公众的提示。但是,恰恰是这些提示使得语言模型表现得更好、更精准。


当这些提示被泄露之后,很可能会导致他们商业机密的泄露,从而导致巨大的损失。


另据悉,目前已有越来越多的创业公司进入提供语言模型服务的赛道,很多公司的服务都会基于一些秘密的提示。


而本次成果可以让这些公司根据所设计的攻击,提前做一些防御,让商业机密得到有效的保护。


赵文婷表示:“做这个课题就是因为我们猜测针对用户不一样的任务,ChatGPT 会把这些任务分门别类,然后加上秘密的提示语。”


虽然由于资金有限,该团队最后没有成功重构 OpenAI 的提示语,但是在本次论文发表不久之后,OpenAI 去掉了一部分原本会返回给用户的信息。


“所以,我们猜想 OpenAI 的改变跟我们的论文有联系。”赵文婷说。


日前,相关论文以《语言模型反转》(LANGUAGE MODEL INVERSION)为题发在 arXiv[1]。康奈尔大学约翰·莫里斯(John X. Morris)博士是第一作者,赵文婷是第二作者。



康奈尔团队提出攻击语言模型新方法,能通过输出来重构输入 - 天天要闻

图 | 相关论文(来源:arXiv)


审稿人表示,此前从未有人想过可以在语言模型里,用很少的输出信息重构输入。而本次方法不仅非常有效,而且十分合理。


赵文婷表示:“我们暂时尚无后续工作,但是论文引起了其他研究者的大量关注。”


有的学者基于本次工作提升了攻击效率,有的学者发现不仅可以通过概率分布去重构输入,还可以通过概率分布去获取别的跟模型有关的信息。


此外,赵文婷表示:“我本科就读于美国伊利诺伊威斯利安文理学院,大二时发表了人生第一篇 AI 论文。”


大三,她去英国牛津大学交换一年,在那里第一次接触到自然语言处理的研究。本科毕业之后,她来到康奈尔大学读博。


其表示:“我在 2023 年还发表了 WildChat 数据集。该数据集收集了大量真实用户和 ChatGPT 的聊天记录,使得公众第一次能用大量数据去了解 ChatGPT 的真实使用情况。”


数据集发表之后获得了较大关注,Anthropic 公司的大模型 Claude 也在该数据集上做了评估。


目前,赵文婷主要研究如何使用大语言模型去做复杂的推理任务,从而让用户更好地解决复杂问题。


此外,她还做一些跟 data&evaluation 方面的研究。比如,研究如何使用数据训练更好的语言模型,以及如何有效评估语言模型的能力。


参考资料:

1.https://arxiv.org/pdf/2311.13647


排版:刘雅坤

科技分类资讯推荐

Win7文件夹加密软件:保护您的隐私和重要文件 - 天天要闻

Win7文件夹加密软件:保护您的隐私和重要文件

我的电脑长期使用Win7系统,我对其情有独钟。有次朋友问起,是否知道Win7文件夹加密软件?这类软件确实存在,今天就来为大家详细介绍这款实用工具的功能与特点。1、 下载安装win7文件夹加密软件十分简便,只需轻点一下即可开始安装。2、 接着,我打开了软件中的加密文件。3、 选中我们的win7文件夹即可。4、 护密软件会弹出...
保障隐私:免费文件夹加密软件推荐 - 天天要闻

保障隐私:免费文件夹加密软件推荐

网上有许多免费的文件夹加密软件,但并非都好用。这里介绍一款实用的免费工具,值得一试。1、 让我们下载免费的文件夹加密软件来保护隐私。2、 安装完成后,运行软件并点击加密文件夹。3、 选择一个需要加密的文件夹,例如名为工作重要内容的文件夹。4、 为文件夹设置密码后,采用闪电加密方式保护。5、 软件开始快速加密,...
文件夹加密软件使用指南 - 天天要闻

文件夹加密软件使用指南

想给保密文件加密却不知如何操作?其实很简单,只需下载文件夹加密软件。下面小编就为大家讲解如何使用该软件进行文件加密。1、 首先,从百度搜索易捷文件夹加密软件,进入任意网页下载安装,这一步不再详述,相信大家都懂。2、 点击后会出现一个选择文件夹的窗口,我们需要选择文件夹,并记得文件夹的存放位置,否则怎么找...
今年国产手机最火的功能,彻底被玩坏了 - 天天要闻

今年国产手机最火的功能,彻底被玩坏了

机友们觉得,这两年,国产手机在软件上给人感觉最大的变化是什么? 有些机友可能会觉得是接入 AI。 但机哥觉得,最大的变化应该是“接入 iOS”。 也就是大家都在做的,明....
小米15 Pro降价1600元,有点刺激啊 - 天天要闻

小米15 Pro降价1600元,有点刺激啊

眼瞅着小米 15S Pro 即将迎来上市。 啪,很快啊,小米 15 Pro 的价格,也算是彻底崩了。 根据电商平台给出的最新价格显示。 目前小米 15 Pro 在降价外....
全息吴晓波vs硅基生命体,联想创新科技大会即将举办 - 天天要闻

全息吴晓波vs硅基生命体,联想创新科技大会即将举办

5月4日,距离2025联想创新科技大会倒计时2天,一张海报在科技圈掀起层层涟漪。画面中,财经作家吴晓波西装革履凝视前方,头旁红色的“TA”字样,与“欢迎来到智能体世界”构成一组待破译的摩斯密码。作为“联想AI挚友”,吴晓波在同步发布的视频中透露,他将与大家一起见证超级智能体如何点亮企业的“硅基大脑”。 摩斯密码...