泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別

2025年05月17日02:52:06 科技 1054


隨著大模型(LLMs)的快速發展和可集成工具的爆炸增長,AI 智能助手在日常生活中可提供的便利越來越多,不僅包括傳統任務型對話中訂機票、查詢天氣等助理能力,還增加了無以計數AI 能力,如 AI 畫圖、解數學題、遊戲攻略等。而 AI 智能助手準確理解用戶的意圖(Intent Detection)並路由至下游工具鏈是實現這些功能的第一步,其重要性不言而喻。


然而,工具的快速迭代、多樣化、工具之間關係的複雜化也給意圖識別帶來新的挑戰,即模型在應對新意圖時普遍存在性能衰減問題。如何在開源的輕量級 LLMs 上訓練泛化性更好、魯棒性更強的意圖識別模型,使得模型能夠更準確理解未見場景的意圖至關重要。


近日,騰訊 PCG 社交線的研究團隊針對這一問題,採用強化學習(RL)訓練方法,通過分組相對策略優化(Group Relative Policy Optimization, GRPO)演算法,結合基於獎勵的課程採樣策略(Reward-based Curriculum Sampling, RCS),將其創新性地應用在意圖識別任務上,顯著提升模型在未知意圖上的泛化能力,攻克了工具爆炸引發的意圖泛化難題,推動大模型在意圖識別任務上達到新高度。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


  • 論文標題:Improving Generalization in Intent Detection: GRPO with reward-Based Curriculum Sampling

  • 論文鏈接:https://www.arxiv.org/abs/2504.13592


基於強化學習的意圖識別


該團隊進行了大量實驗,從不同維度深入剖析了 GRPO 演算法在這一任務上的優勢。該工作的貢獻主要為以下四個方面:


1. 該團隊證明了在意圖檢測問題上,通過強化學習(RL)訓練的模型在泛化能力上顯著優於通過監督微調(SFT)訓練的模型,具體體現在對未見意圖和跨語言能力的泛化性能大幅提升。值得一提的是除了完全新的未見意圖,該工作還比較了對已知意圖進行拆分、合併等實際產品場景會遇到的真實問題。


2. 該團隊通過基於獎勵的課程採樣策略進一步增強了 GRPO 的訓練效果,有效引導模型在訓練過程中聚焦於更具挑戰性的樣例。


3. 在強化學習過程中引入思考(Thought),顯著提升了模型在複雜意圖檢測任務中的泛化能力。這一發現表明,在更具挑戰性的場景中,Thought 對於提升模型的泛化能力至關重要。


4. 該團隊發現,在意圖識別任務中,無論選擇預訓練模型(Pretrain)還是指令微(Instruct)調模型作為基礎,經過相同輪次的 GRPO 訓練後,兩者性能相近。這一結果與傳統訓練經驗有所不同。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


訓練方法


獎勵函數


針對強化學習訓練目標,該團隊從格式獎勵和準確率獎勵兩個維度進行引導:

泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


其中 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 分別為各獎勵分量的權重係數。


格式獎勵 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 :基於提示模板的指令規範,嚴格約束模型輸出格式。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


準確率獎勵 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 :基於意圖檢測準確率的二元獎勵函數,從模型輸出中提取預測意圖 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞

,並與真實標籤 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 進行精確匹配:


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


基於獎勵的課程採樣


該團隊採用課程學習的思路分兩步對模型進行訓練。

離線數據分類 該團隊通過離線的方法對所有數據的難度進行了分類。具體過程中先進行一遍完整的 GRPO 方法,記錄每條數據的 reward,根據每條數據的 reward 作為難度得分,如下公式所示:


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


其中 G 為採樣總數。


課程採樣 在課程學習過程中,第一階段在所有數據上進行訓練直到模型基本收斂;第二階段篩選保留 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 的數據作為難樣例進行訓練。這一採樣方法幫助模型在第二階段更好的關注容易出錯的難數據。


實驗:RL 能夠幫助模型理解任務而不是模仿任務識別


實驗設置:


  • 數據集:該團隊在 TODAssistant(自建中文數據集)和 MultiWOZ2.2(公開英文數據集)兩個基準上開展評測。MultiWOZ2.2 數據集是公開的 TOD 任務數據集,該研究團隊在該數據集上提取出了意圖分類這個任務。

  • 模型選取:該團隊選取 Qwen2.5-7B-Instruct 模型作為基座模型,分別對於 SFT 方法和 GRPO 方法訓練相同 epoch 來對比模型性能。

  • 評測指標:用正確率評測意圖分類的準確性。


GRPO 方法與 SFT 方法的對比 :研究團隊首先對比了 SFT 方法和 GRPO 方法。直接使用原始的 GRPO 方法,在意圖識別任務上,模型可以達到與 SFT 相近的性能,在英文的 MultiWOZ2.2 數據集上做到了與 SFT 模型相同的表現,證明了 GRPO 方法在該任務上的有效性。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


為了進一步探究 GRPO 的優勢,研究團隊針對模型的泛化性進行了評測。具體來說,在 MultiWOZ 數據集上,在訓練過程中分別去掉測試集中的每個類別;在 TODAssistant 數據集上對原有的類別進行組合和細分操作,獲得新的類別,來驗證模型在該新類別上的準確性;該團隊還測試了模型的跨語言能力(在英文數據集上訓練後的模型在中文測試集上的結果)。 實驗結果表明,GRPO 方法相較於 SFT 方法,有著更好的泛化性能。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


RCS 方法實驗結果 :在此基礎上,研究團隊進一步應用 RCS 方法進行實驗。結果表明,在課程學習的第一階段,模型收斂到與原始 GRPO 方法相近的準確率;在第二階段難樣例篩選過程後,模型的準確率進一步提升。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


該團隊在課程學習第二階段的採樣過程中,對於難樣例與正常訓練數據的比例進行了實驗,隨機在其他訓練數據中採樣與難樣例混合共同訓練。結果表明,單獨訓練難樣例取得了最好的效果。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


Thought 對於訓練過程的影響 :研究團隊還探究了在意圖識別這種邏輯較為簡單的任務上 Thought 對於結果的影響。該團隊發現,在這類任務上 Thought 同樣有著關鍵的作用:在 TODAssistant 數據上,Thought 對於泛化能力的提升尤為重要;在 MultiWOZ2.2 數據集上,去掉 Thought 後模型的性能出現了大幅下降。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


Pretrain 模型和 Instruct 模型在該任務上的區別 :研究團隊發現,在意圖識別任務上,選取 Pretrain 模型或者 Instruct 模型作為底座,在經過相同的 epoch 進行 GRPO 訓練後,可以收斂到相近的性能,這與傳統的訓練經驗有所不同。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


同時該團隊還發現,instruct 模型在寬鬆格式和嚴格格式獎勵函數下的生成長度均保持穩定。然而,Pretrain 模型在寬鬆格式獎勵下生成長度先下降後上升,而嚴格格式獎勵下則無此趨勢。值得注意的是,這種長度增加並未提供有效信息。這一對比表明,類似 R1 的強化學習訓練會誘導模型通過增加輸出長度來獲取更高獎勵,但在相對簡單的意圖檢測任務中,真正的 「頓悟時刻 」 難以出現。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞

科技分類資訊推薦

「一網統管」「一網通辦」,看數字化轉型下的「山東方案」 - 天天要聞

「一網統管」「一網通辦」,看數字化轉型下的「山東方案」

近日,由山東省大數據局發起,大眾融媒承辦的「AI山東·媒體觀『數』」融媒體行活動啟動。記者走訪泰安、濟寧兩市,了解山東積極探索大數據、雲計算等數字技術在政務服務領域的應用成效。「一張圖」城市運行「一屏觀全城」走進泰安市大數據局,屏幕上「泰城的一天」數據實時跳動。這裡匯聚了泰安市105億條公共數據,60%以上...
你所不知道的「律動律享」6大免費福利攻略,請查收~ - 天天要聞

你所不知道的「律動律享」6大免費福利攻略,請查收~

發現·分享·秀 | Discover · Share· Show作為一名雲南律師或者準備成為律師的你一定聽說過「律動律享」但你不一定真正了解作為雲南律師行業垂直媒體矩陣人才交互平台品牌運營專業機構我們深植雲南律師行業關注行業發展 傳播行業資
王興興:宇樹科技年度營收已達10億元左右 - 天天要聞

王興興:宇樹科技年度營收已達10億元左右

北京商報訊(記者 李秀梅)6月26日,宇樹科技創始人王興興在2025夏季達沃斯論壇上表示,宇樹科技在2016年最早的時候只有自己一個人,到現在包括生產部門,員工已超千人。王興興透露,宇樹科技年度營收已達10億元左右。...
雷軍公布小米YU7實測里程:共計649萬公里 覆蓋全國296城 - 天天要聞

雷軍公布小米YU7實測里程:共計649萬公里 覆蓋全國296城

快科技6月26日消息,雷軍宣布小米YU7的道路實測里程已達649萬公里,覆蓋全國296個城市。自2024年初開始測試以來,歷經539天,工程師們駕駛YU7測試車經歷了極端環境,包括53攝氏度的吐魯番、零下41攝氏度的黑河以及海拔5380米的西藏阿里地區。小米YU7定位純電動中大型SUV,車身長寬高為4999/1996/1600mm,軸距3000mm。外觀沿.
瑞虎 7 雙車煥新上市,性價比王者再掀購車熱潮 - 天天要聞

瑞虎 7 雙車煥新上市,性價比王者再掀購車熱潮

6 月 17 日,奇瑞汽車旗下新款瑞虎 7 PLUS 與瑞虎 7 高能版正式上市,為緊湊型 SUV 市場注入了全新活力。作為年度改款車型,兩款新車在延續經典設計的同時,著重對配置與動力系統進行了升級,更令人驚喜的是,它們還帶來了極具吸引力的價格與購車權益,性價
支付寶「我的」界面大改版:一鍵直達更多常用功能 - 天天要聞

支付寶「我的」界面大改版:一鍵直達更多常用功能

快科技6月26日消息,最近有用戶發現,支付寶 「我的」 界面迎來改版。從界面來看,新版功能布局更高效、邏輯更通暢。新版將「銀行卡」「芝麻信用」「螞蟻保」等常用功能組合在一起橫向展示,用戶無需下滑,縮短查找路徑,提升操作效率。此外還加入了常用的民生服務,包括醫保、社保、住房公積金、個人養老金等服務,方便用...
中國消費新模式驅動內需提質擴容 - 天天要聞

中國消費新模式驅動內需提質擴容

這是6月24日在天津拍攝的2025海河國際消費論壇現場。新華社記者 趙子碩 攝新華社天津6月26日電 題:中國消費新模式驅動內需提質擴容新華社記者梁姊、宋瑞、李亭寵物主人為智能貓砂盆「豪擲千元」,盲盒玩具從中國商場火到美國超市,「新茶飲」成為年輕人健康度夏的飲品首選……在零售效率持續優化和年輕群體已成為消費主力...