康奈爾團隊提出攻擊語言模型新方法,能通過輸出來重構輸入

近日,美國康奈爾大學博士生趙文婷和所在團隊提出了一種攻擊語言模型的新方法,可以通過語言模型的輸出來重構語言模型的輸入。



圖 | 趙文婷(來源:趙文婷)


OpenAIChatGPT 語言模型為例, 它會根據用戶的 prompts 計算出一個概率分布,這個概率分布會告訴用戶接下來的輸出是什麼。


那麼,這個概率分布是否也可以用來重構 prompts?而本次研究則展示了通過概率分布,所能實現的高精度重構提示。


這一課題的意義在於:很多商家在提供語言模型的服務時,語言模型里往往都有一些沒有展示給公眾的提示。但是,恰恰是這些提示使得語言模型表現得更好、更精準。


當這些提示被泄露之後,很可能會導致他們商業機密的泄露,從而導致巨大的損失。


另據悉,目前已有越來越多的創業公司進入提供語言模型服務的賽道,很多公司的服務都會基於一些秘密的提示。


而本次成果可以讓這些公司根據所設計的攻擊,提前做一些防禦,讓商業機密得到有效的保護。


趙文婷表示:“做這個課題就是因為我們猜測針對用戶不一樣的任務,ChatGPT 會把這些任務分門別類,然後加上秘密的提示語。”


雖然由於資金有限,該團隊最後沒有成功重構 OpenAI 的提示語,但是在本次論文發表不久之後,OpenAI 去掉了一部分原本會返回給用戶的信息。


“所以,我們猜想 OpenAI 的改變跟我們的論文有聯繫。”趙文婷說。


日前,相關論文以《語言模型反轉》(LANGUAGE MODEL INVERSION)為題發在 arXiv[1]。康奈爾大學約翰·莫里斯(John X. Morris)博士是第一作者,趙文婷是第二作者。



圖 | 相關論文(來源:arXiv)


審稿人表示,此前從未有人想過可以在語言模型里,用很少的輸出信息重構輸入。而本次方法不僅非常有效,而且十分合理。


趙文婷表示:“我們暫時尚無後續工作,但是論文引起了其他研究者的大量關注。”


有的學者基於本次工作提升了攻擊效率,有的學者發現不僅可以通過概率分布去重構輸入,還可以通過概率分布去獲取別的跟模型有關的信息。


此外,趙文婷表示:“我本科就讀於美國伊利諾伊威斯利安文理學院,大二時發表了人生第一篇 AI 論文。”


大三,她去英國牛津大學交換一年,在那裡第一次接觸到自然語言處理的研究。本科畢業之後,她來到康奈爾大學讀博。


其表示:“我在 2023 年還發表了 WildChat 數據集。該數據集收集了大量真實用戶和 ChatGPT 的聊天記錄,使得公眾第一次能用大量數據去了解 ChatGPT 的真實使用情況。”


數據集發表之後獲得了較大關注,Anthropic 公司的大模型 Claude 也在該數據集上做了評估。


目前,趙文婷主要研究如何使用大語言模型去做複雜的推理任務,從而讓用戶更好地解決複雜問題。


此外,她還做一些跟 data&evaluation 方面的研究。比如,研究如何使用數據訓練更好的語言模型,以及如何有效評估語言模型的能力。


參考資料:

1.https://arxiv.org/pdf/2311.13647


排版:劉雅坤