AI 愛好者們注意了!一項來自華盛頓和芝加哥研究人員的新突破引起了人們對大型語言模型 (LLM) 安全的擔憂。他們發明了一種名為 ArtPrompt 的新方法,可以繞過像 GPT-3.5、GPT-4、Gemini、claude和 Llama2 等聊天機器人的安全機制。
利用 ASCII 藝術越獄?
研究人員開發了 ArtPrompt 工具,它使用 ASCII 藝術 (由字母和符號組成的圖像) 繞過聊天機器人的安全措施,讓它們可以回應原本被設計為拒絕的查詢。
文本“炸彈”教程?
研究人員利用 ArtPrompt 生成 ASCII 藝術,成功繞過了大型語言模型的安全措施,誘導聊天機器人提供了有關製造炸彈的信息。這表明攻擊者如何利用 ASCII 藝術來規避安全限制,讓聊天機器人回答原本被禁止的危險或非法問題。
偽造鈔票大揭秘?
在另一個例子中,研究人員使用 ArtPrompt 成功地向語言模型詢問了有關偽造鈔票的問題。他們同樣利用 ASCII 藝術替換了原始查詢中可能會被語言模型識別並拒絕的敏感詞,從而繞過了模型的安全防禦。
ArtPrompt 的原理
該技術分為兩個步驟:詞語掩蓋和偽裝式提示生成。首先,提示中的敏感詞會被掩蓋起來,以避免被大型語言模型檢測到。然後,ASCII 藝術被用來替換這些詞,從而創建一個繞過 AI 道德和安全措施的提示。
為什麼這很重要?
ArtPrompt 的影響: 這項技術展示了對話式 AI 安全機制的一個重大漏洞。它不僅挑戰了當前安全措施的有效性,還凸顯了在維護 AI 安全方面,我們正陷入一場與不斷創新的規避伎倆之間的“ whack-a-mole ” (打地鼠) 遊戲。
AI 系統的安全: ArtPrompt 能夠輕易繞過安全協議,凸顯了對話式 AI 的關鍵安全漏洞。我們需要更加強大和複雜的安全措施來防止濫用。
倫理和法律問題: 像 ArtPrompt 這樣的工具可以讓 AI 生成有害或非法內容,這帶來了重大的倫理和法律挑戰。因此,開發能夠抵抗此類操縱的 AI 至關重要。