对话式AI安全漏洞!研究人员绕过安全措施让AI泄露危险信息

2024年03月14日21:25:10 科技 1547


对话式AI安全漏洞!研究人员绕过安全措施让AI泄露危险信息 - 天天要闻

AI 爱好者们注意了!一项来自华盛顿芝加哥研究人员的新突破引起了人们对大型语言模型 (LLM) 安全的担忧。他们发明了一种名为 ArtPrompt 的新方法,可以绕过像 GPT-3.5、GPT-4、Gemini、claude和 Llama2 等聊天机器人的安全机制。

利用 ASCII 艺术越狱?

研究人员开发了 ArtPrompt 工具,它使用 ASCII 艺术 (由字母和符号组成的图像) 绕过聊天机器人的安全措施,让它们可以回应原本被设计为拒绝的查询。

文本“炸弹”教程?

研究人员利用 ArtPrompt 生成 ASCII 艺术,成功绕过了大型语言模型的安全措施,诱导聊天机器人提供了有关制造炸弹的信息。这表明攻击者如何利用 ASCII 艺术来规避安全限制,让聊天机器人回答原本被禁止的危险或非法问题。

对话式AI安全漏洞!研究人员绕过安全措施让AI泄露危险信息 - 天天要闻

伪造钞票大揭秘?

在另一个例子中,研究人员使用 ArtPrompt 成功地向语言模型询问了有关伪造钞票的问题。他们同样利用 ASCII 艺术替换了原始查询中可能会被语言模型识别并拒绝的敏感词,从而绕过了模型的安全防御。

ArtPrompt 的原理

该技术分为两个步骤:词语掩盖和伪装式提示生成。首先,提示中的敏感词会被掩盖起来,以避免被大型语言模型检测到。然后,ASCII 艺术被用来替换这些词,从而创建一个绕过 AI 道德和安全措施的提示。

为什么这很重要?

ArtPrompt 的影响: 这项技术展示了对话式 AI 安全机制的一个重大漏洞。它不仅挑战了当前安全措施的有效性,还凸显了在维护 AI 安全方面,我们正陷入一场与不断创新的规避伎俩之间的“ whack-a-mole ” (打地鼠) 游戏。

AI 系统的安全: ArtPrompt 能够轻易绕过安全协议,凸显了对话式 AI 的关键安全漏洞。我们需要更加强大和复杂的安全措施来防止滥用。

伦理和法律问题: 像 ArtPrompt 这样的工具可以让 AI 生成有害或非法内容,这带来了重大的伦理和法律挑战。因此,开发能够抵抗此类操纵的 AI 至关重要。

科技分类资讯推荐

蚂蚁消金林嘉南:大模型赋能智能风控,额度互动促进金融健康 - 天天要闻

蚂蚁消金林嘉南:大模型赋能智能风控,额度互动促进金融健康

“蚂蚁消金希望利用交互式智能风控技术,挖掘年轻人努力成长的证明”。6月19日,在上海举行的2025中国国际金融展上,蚂蚁消金首席风险官林嘉南分享了,如何将大模型技术应用在交互式智能风控领域,从而促进额度的互动性,促进用户与机构的金融健康。这契合了本届展会 “开放创新,科技赋能,共创金融新未来”的主题。普惠金...
德国西格玛(SIGMA Audio)品牌介绍 - 天天要闻

德国西格玛(SIGMA Audio)品牌介绍

德国西格玛(SIGMA Audio)品牌溯源:精密工艺与纯粹音质的融合德国西格玛(SIGMA Audio)是享誉全球的高端音响品牌,诞生于德国精密工程与声学技术的沃土。
海尔位列谷歌&凯度BrandZ中国全球化品牌第6,蝉联行业第一 - 天天要闻

海尔位列谷歌&凯度BrandZ中国全球化品牌第6,蝉联行业第一

海南陵水 2025年6月19日 -- 6月19日,谷歌Google携手凯度BrandZ发布《2025年中国全球化品牌50强》榜单,海尔蝉联行业第一,位列第6位,连续9年稳居中国全球化品牌前十之列,品牌排名与全球影响力持续攀升。 自主创牌的行业标杆 作为权威的品牌价值评估体系之一,《2025年中国全球化品牌50强》榜单覆盖了澳大利亚、巴西、法...
锐评|坚定“投资未来”必将“赢得未来” - 天天要闻

锐评|坚定“投资未来”必将“赢得未来”

一辆公交车在北京京郊丝滑行驶,但坐在主驾的安全员并没有摸方向盘,哪怕遇到复杂路况,“AI司机”也能应对自如……“活力中国调研行”主题采访活动正在进行,一行记者走进北京机器人世界,切身感受“未来已来”。
锐评|将自动续费的选择权还给用户 - 天天要闻

锐评|将自动续费的选择权还给用户

近日,国家广播电视总局实施互联网电视专项规范管理措施,剑指用户反映集中的自动续费“扣费前无提醒”“取消流程复杂”“投诉渠道不畅”等问题。提起自动续费的“坑”,很多人都有切身体验。往往是默认勾选或不经意勾选了“自动续费”,等到察觉银钱损失而希望取消之时,却难以找到入口。这样的现象背后,是某些平台为“留...
陈钟:安全为锚 创新为帆 - 天天要闻

陈钟:安全为锚 创新为帆

2025年6月10日,中关村互联网金融研究院、中关村金融科技产业发展联盟主办的“2025中关村论坛系列活动——数字金融与金融安全大会”在中关村展示中心举办。大会以“人工智能机遇:未来金融格局重塑及安全治理”为主题,全面解读金融领域的探讨数字金融与金融安全之间的紧密联系,分享行业内最新技术动态与创新应用实践,并...
废弃了7年的老Android项目,我用AI两周就重写完了! - 天天要闻

废弃了7年的老Android项目,我用AI两周就重写完了!

还在为维护老旧项目头疼?AI 或许是你的救星。本文作者是一位有多年 Android 开发经验的工程师,在离开原生开发多年之后,决定借助 Copilot 等 AI 开发工具,花两周时间将一个 7 年前的 Android 应用从头重写为现代架构