康奈爾團隊提出攻擊語言模型新方法,能通過輸出來重構輸入

2024年05月12日18:05:12 科技 1850

近日,美國康奈爾大學博士生趙文婷和所在團隊提出了一種攻擊語言模型的新方法,可以通過語言模型的輸出來重構語言模型的輸入。



康奈爾團隊提出攻擊語言模型新方法,能通過輸出來重構輸入 - 天天要聞

圖 | 趙文婷(來源:趙文婷)


OpenAIChatGPT 語言模型為例, 它會根據用戶的 prompts 計算出一個概率分布,這個概率分布會告訴用戶接下來的輸出是什麼。


那麼,這個概率分布是否也可以用來重構 prompts?而本次研究則展示了通過概率分布,所能實現的高精度重構提示。


這一課題的意義在於:很多商家在提供語言模型的服務時,語言模型里往往都有一些沒有展示給公眾的提示。但是,恰恰是這些提示使得語言模型表現得更好、更精準。


當這些提示被泄露之後,很可能會導致他們商業機密的泄露,從而導致巨大的損失。


另據悉,目前已有越來越多的創業公司進入提供語言模型服務的賽道,很多公司的服務都會基於一些秘密的提示。


而本次成果可以讓這些公司根據所設計的攻擊,提前做一些防禦,讓商業機密得到有效的保護。


趙文婷表示:「做這個課題就是因為我們猜測針對用戶不一樣的任務,ChatGPT 會把這些任務分門別類,然後加上秘密的提示語。」


雖然由於資金有限,該團隊最後沒有成功重構 OpenAI 的提示語,但是在本次論文發表不久之後,OpenAI 去掉了一部分原本會返回給用戶的信息。


「所以,我們猜想 OpenAI 的改變跟我們的論文有聯繫。」趙文婷說。


日前,相關論文以《語言模型反轉》(LANGUAGE MODEL INVERSION)為題發在 arXiv[1]。康奈爾大學約翰·莫里斯(John X. Morris)博士是第一作者,趙文婷是第二作者。



康奈爾團隊提出攻擊語言模型新方法,能通過輸出來重構輸入 - 天天要聞

圖 | 相關論文(來源:arXiv)


審稿人表示,此前從未有人想過可以在語言模型里,用很少的輸出信息重構輸入。而本次方法不僅非常有效,而且十分合理。


趙文婷表示:「我們暫時尚無後續工作,但是論文引起了其他研究者的大量關注。」


有的學者基於本次工作提升了攻擊效率,有的學者發現不僅可以通過概率分布去重構輸入,還可以通過概率分布去獲取別的跟模型有關的信息。


此外,趙文婷表示:「我本科就讀於美國伊利諾伊威斯利安文理學院,大二時發表了人生第一篇 AI 論文。」


大三,她去英國牛津大學交換一年,在那裡第一次接觸到自然語言處理的研究。本科畢業之後,她來到康奈爾大學讀博。


其表示:「我在 2023 年還發表了 WildChat 數據集。該數據集收集了大量真實用戶和 ChatGPT 的聊天記錄,使得公眾第一次能用大量數據去了解 ChatGPT 的真實使用情況。」


數據集發表之後獲得了較大關注,Anthropic 公司的大模型 Claude 也在該數據集上做了評估。


目前,趙文婷主要研究如何使用大語言模型去做複雜的推理任務,從而讓用戶更好地解決複雜問題。


此外,她還做一些跟 data&evaluation 方面的研究。比如,研究如何使用數據訓練更好的語言模型,以及如何有效評估語言模型的能力。


參考資料:

1.https://arxiv.org/pdf/2311.13647


排版:劉雅坤

科技分類資訊推薦

愛心助考+陪考假雙暖心 嵐圖汽車四年如一日護航高考 - 天天要聞

愛心助考+陪考假雙暖心 嵐圖汽車四年如一日護航高考

2025年高考拉開帷幕,嵐圖汽車連續四年堅持開展免費愛心助考活動。本次活動,嵐圖汽車充分發揮央國企新能源第一品牌的責任與擔當,以「向上人生路,相伴有嵐圖」為主題,攜手武漢市公安局、武漢經開區在核心考點外設立「嵐圖服務點」,為武漢市廣大考生提供愛心助考服務。嵐圖
比亞迪全新家用轎跑 海豹06EV上市 售價10.98-12.98萬 - 天天要聞

比亞迪全新家用轎跑 海豹06EV上市 售價10.98-12.98萬

2025年6月7日,比亞迪海洋網潮美質選轎跑海豹06EV於重慶車展上市。新車共推出3款配置,售價10.98萬-12.98萬元。並推出購車享致臻煥新禮、致臻互聯禮、致臻無憂禮、致臻延保禮、致臻充電禮多重禮遇。憑藉家用轎跑形象,海豹06EV在顏值、駕乘、品質、安全
嵐圖夢想家6月限時補貼5.5萬起 豪華套件0元升級 - 天天要聞

嵐圖夢想家6月限時補貼5.5萬起 豪華套件0元升級

6月6日,嵐圖汽車官方宣布最新限時購車政策:6月7日至6月30日期間,用戶下定並交付全新嵐圖夢想家,可立省現金5.5萬起,包括限時廠家補貼1萬元,國家及地方政府補貼至高1.5萬元,限時保險補貼5000元,限時享全品牌置換補貼5000元起,並享受限時3年0息金融
2027年換代豐田Harrier前瞻:極致轎跑風+新1.5T混動系統 - 天天要聞

2027年換代豐田Harrier前瞻:極致轎跑風+新1.5T混動系統

自2020年6月現行版本推出以來已過去約6年,新款Harrier的全貌終於逐漸清晰。隨著新款RAV4於2025年5月21日在全球首發,採用相同GA-K平台的下一代Harrier也備受關注。Harrier原本預計將在2026年左右進行換代。然而,由於豐田目前仍面
行業首發三大場景,小鵬聯手華為做出世界最好AR-HUD - 天天要聞

行業首發三大場景,小鵬聯手華為做出世界最好AR-HUD

昨日,小鵬汽車聯合華為智能汽車解決方案發布世界最好的車載AR-HUD——「追光全景」抬頭顯示,這是全球首個真正融入AI智駕的HUD解決方案,也是視覺效果最好的AR-HUD。發布會上,小鵬汽車副總裁、產品運營中心負責人陳永海表示:HUD的最大價值是對人的引導,強
800V+華為乾崑智駕,奧迪Q6L e-tron對比蔚來ES6誰更強? - 天天要聞

800V+華為乾崑智駕,奧迪Q6L e-tron對比蔚來ES6誰更強?

在2025粵港澳車展上,一汽奧迪Q6L e-tron家族正式開啟預售,作為PPE純電平台打造的首款旗艦車型,其在智能座艙、智能輔助駕駛、電子電氣架構以及「三電」系統方面實現了全面革新,堪稱今年豪華純電車市場的重磅之作。