康奈爾團隊提出攻擊語言模型新方法,能通過輸出來重構輸入

2024年05月12日18:05:12 科技 1850

近日,美國康奈爾大學博士生趙文婷和所在團隊提出了一種攻擊語言模型的新方法,可以通過語言模型的輸出來重構語言模型的輸入。



康奈爾團隊提出攻擊語言模型新方法,能通過輸出來重構輸入 - 天天要聞

圖 | 趙文婷(來源:趙文婷)


OpenAIChatGPT 語言模型為例, 它會根據用戶的 prompts 計算出一個概率分佈,這個概率分佈會告訴用戶接下來的輸出是什麼。


那麼,這個概率分佈是否也可以用來重構 prompts?而本次研究則展示了通過概率分佈,所能實現的高精度重構提示。


這一課題的意義在於:很多商家在提供語言模型的服務時,語言模型里往往都有一些沒有展示給公眾的提示。但是,恰恰是這些提示使得語言模型表現得更好、更精準。


當這些提示被泄露之後,很可能會導致他們商業機密的泄露,從而導致巨大的損失。


另據悉,目前已有越來越多的創業公司進入提供語言模型服務的賽道,很多公司的服務都會基於一些秘密的提示。


而本次成果可以讓這些公司根據所設計的攻擊,提前做一些防禦,讓商業機密得到有效的保護。


趙文婷表示:「做這個課題就是因為我們猜測針對用戶不一樣的任務,ChatGPT 會把這些任務分門別類,然後加上秘密的提示語。」


雖然由於資金有限,該團隊最後沒有成功重構 OpenAI 的提示語,但是在本次論文發表不久之後,OpenAI 去掉了一部分原本會返回給用戶的信息。


「所以,我們猜想 OpenAI 的改變跟我們的論文有聯繫。」趙文婷說。


日前,相關論文以《語言模型反轉》(LANGUAGE MODEL INVERSION)為題發在 arXiv[1]。康奈爾大學約翰·莫里斯(John X. Morris)博士是第一作者,趙文婷是第二作者。



康奈爾團隊提出攻擊語言模型新方法,能通過輸出來重構輸入 - 天天要聞

圖 | 相關論文(來源:arXiv)


審稿人表示,此前從未有人想過可以在語言模型里,用很少的輸出信息重構輸入。而本次方法不僅非常有效,而且十分合理。


趙文婷表示:「我們暫時尚無後續工作,但是論文引起了其他研究者的大量關注。」


有的學者基於本次工作提升了攻擊效率,有的學者發現不僅可以通過概率分佈去重構輸入,還可以通過概率分佈去獲取別的跟模型有關的信息。


此外,趙文婷表示:「我本科就讀於美國伊利諾伊威斯利安文理學院,大二時發表了人生第一篇 AI 論文。」


大三,她去英國牛津大學交換一年,在那裡第一次接觸到自然語言處理的研究。本科畢業之後,她來到康奈爾大學讀博。


其表示:「我在 2023 年還發表了 WildChat 數據集。該數據集收集了大量真實用戶和 ChatGPT 的聊天記錄,使得公眾第一次能用大量數據去了解 ChatGPT 的真實使用情況。」


數據集發表之後獲得了較大關注,Anthropic 公司的大模型 Claude 也在該數據集上做了評估。


目前,趙文婷主要研究如何使用大語言模型去做複雜的推理任務,從而讓用戶更好地解決複雜問題。


此外,她還做一些跟 data&evaluation 方面的研究。比如,研究如何使用數據訓練更好的語言模型,以及如何有效評估語言模型的能力。


參考資料:

1.https://arxiv.org/pdf/2311.13647


排版:劉雅坤

科技分類資訊推薦

最新消息!她已離職!曾凌晨發文道歉 - 天天要聞

最新消息!她已離職!曾凌晨發文道歉

本月初,百度副總裁璩靜在短視頻平台上發佈的幾條出鏡視頻引髮網友關注,特別是其提到「員工鬧分手提離職我秒批」等職場話題引髮網友質疑,一度登上微博熱搜。
淘寶取消「618」預售機制後,京東宣布「現貨開賣」 - 天天要聞

淘寶取消「618」預售機制後,京東宣布「現貨開賣」

繼5月7日天貓宣布取消「618」預售機制後,5月8日,京東也正式宣布「現貨開賣」。今年京東618將於5月31日晚8點全面開啟。據了解,現貨開賣的同時,京東還將同步推出百億補貼日活動。在6月2日、6月3日、6月8日,還將先後推出9.
細思極恐網絡暴力和群毆 - 天天要聞

細思極恐網絡暴力和群毆

互聯網高速發展利用時代踏實做事和說實話的人都不被人待見,時時刻刻遭受網絡暴力,聲討,群毆,格力電器董明珠,踏踏實實做企業,創稅收,促進就業,,為國家為人民奉獻大半輩子青春,心血, 汗水,本該退休安享晚年,侍弄兒孫遺憾找不到合適放心接班人,七
探秘vivo影像之美,與X系列技術溝通會共同見證卓越藍圖 - 天天要聞

探秘vivo影像之美,與X系列技術溝通會共同見證卓越藍圖

前段時間的vivo X系列新品發佈讓我們記憶深刻,而剛剛結束結束的「影像新藍圖X系列技術溝通會」也十分精彩,這次溝通會不僅告訴了大家vivo在影像領域的最新成果,也讓粉絲們對vivo影像背後的故事有更多了解,在vivo影像的發展歷程中可以分成兩方面,一方面,vivo通過自主研發,不斷提升自身的影像技術實力,另一方面,vivo...
華為再次亮劍,鴻蒙系統亮點多多 - 天天要聞

華為再次亮劍,鴻蒙系統亮點多多

5月15日,華為夏季全場景新品發佈會簡直是一場視覺與科技的盛宴,看得我熱血沸騰!不得不說,華為這次真的是大招頻出,新品多到讓人眼花繚亂!先說說那個華為MatePad 11.5 」 S吧,一亮相就讓人眼前一亮!它的設計簡約而不失時尚,屏幕清晰得讓人彷彿置身其中。
【新機】升級了個寂寞?藍廠新機發佈 - 天天要聞

【新機】升級了個寂寞?藍廠新機發佈

昨天晚上藍廠發佈了新機iQOO Neo9s Pro,機子採用了6.78英寸1.5K 8T LTPO直面屏,支持144Hz刷新率。搭載天璣9300+,前置1600萬像素,後置IMX920主攝+5000萬超廣角。電池容量5160mAh,支持120W快充。新增白色版本,用上了白色玻璃後蓋,顏值確實提升了不少。不過還是塑料中框+短焦指紋。12+256GB 2699元
AI Agent在哪些行業領域會產生影響? - 天天要聞

AI Agent在哪些行業領域會產生影響?

在如今飛速前進的科技浪潮中,人工智能(AI)技術的創新正以前所未有的速度重塑我們的生活和工作的每一個角落。在這一浪潮中,Agent AI智能體以其卓越的能力脫穎而出,它通過模擬人類智能行為,能夠勝任一系列複雜任務,並在多個領域展現出了其無法替代的價值。