泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別

2025年05月17日02:52:06 科技 1054


隨着大模型(LLMs)的快速發展和可集成工具的爆炸增長,AI 智能助手在日常生活中可提供的便利越來越多,不僅包括傳統任務型對話中訂機票、查詢天氣等助理能力,還增加了無以計數AI 能力,如 AI 畫圖、解數學題、遊戲攻略等。而 AI 智能助手準確理解用戶的意圖(Intent Detection)並路由至下游工具鏈是實現這些功能的第一步,其重要性不言而喻。


然而,工具的快速迭代、多樣化、工具之間關係的複雜化也給意圖識別帶來新的挑戰,即模型在應對新意圖時普遍存在性能衰減問題。如何在開源的輕量級 LLMs 上訓練泛化性更好、魯棒性更強的意圖識別模型,使得模型能夠更準確理解未見場景的意圖至關重要。


近日,騰訊 PCG 社交線的研究團隊針對這一問題,採用強化學習(RL)訓練方法,通過分組相對策略優化(Group Relative Policy Optimization, GRPO)算法,結合基於獎勵的課程採樣策略(Reward-based Curriculum Sampling, RCS),將其創新性地應用在意圖識別任務上,顯著提升模型在未知意圖上的泛化能力,攻克了工具爆炸引發的意圖泛化難題,推動大模型在意圖識別任務上達到新高度。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


  • 論文標題:Improving Generalization in Intent Detection: GRPO with reward-Based Curriculum Sampling

  • 論文鏈接:https://www.arxiv.org/abs/2504.13592


基於強化學習的意圖識別


該團隊進行了大量實驗,從不同維度深入剖析了 GRPO 算法在這一任務上的優勢。該工作的貢獻主要為以下四個方面:


1. 該團隊證明了在意圖檢測問題上,通過強化學習(RL)訓練的模型在泛化能力上顯著優於通過監督微調(SFT)訓練的模型,具體體現在對未見意圖和跨語言能力的泛化性能大幅提升。值得一提的是除了完全新的未見意圖,該工作還比較了對已知意圖進行拆分、合併等實際產品場景會遇到的真實問題。


2. 該團隊通過基於獎勵的課程採樣策略進一步增強了 GRPO 的訓練效果,有效引導模型在訓練過程中聚焦於更具挑戰性的樣例。


3. 在強化學習過程中引入思考(Thought),顯著提升了模型在複雜意圖檢測任務中的泛化能力。這一發現表明,在更具挑戰性的場景中,Thought 對於提升模型的泛化能力至關重要。


4. 該團隊發現,在意圖識別任務中,無論選擇預訓練模型(Pretrain)還是指令微(Instruct)調模型作為基礎,經過相同輪次的 GRPO 訓練後,兩者性能相近。這一結果與傳統訓練經驗有所不同。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


訓練方法


獎勵函數


針對強化學習訓練目標,該團隊從格式獎勵和準確率獎勵兩個維度進行引導:

泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


其中 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 分別為各獎勵分量的權重係數。


格式獎勵 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 :基於提示模板的指令規範,嚴格約束模型輸出格式。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


準確率獎勵 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 :基於意圖檢測準確率的二元獎勵函數,從模型輸出中提取預測意圖 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞

,並與真實標籤 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 進行精確匹配:


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


基於獎勵的課程採樣


該團隊採用課程學習的思路分兩步對模型進行訓練。

離線數據分類 該團隊通過離線的方法對所有數據的難度進行了分類。具體過程中先進行一遍完整的 GRPO 方法,記錄每條數據的 reward,根據每條數據的 reward 作為難度得分,如下公式所示:


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


其中 G 為採樣總數。


課程採樣 在課程學習過程中,第一階段在所有數據上進行訓練直到模型基本收斂;第二階段篩選保留 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 的數據作為難樣例進行訓練。這一採樣方法幫助模型在第二階段更好的關注容易出錯的難數據。


實驗:RL 能夠幫助模型理解任務而不是模仿任務識別


實驗設置:


  • 數據集:該團隊在 TODAssistant(自建中文數據集)和 MultiWOZ2.2(公開英文數據集)兩個基準上開展評測。MultiWOZ2.2 數據集是公開的 TOD 任務數據集,該研究團隊在該數據集上提取出了意圖分類這個任務。

  • 模型選取:該團隊選取 Qwen2.5-7B-Instruct 模型作為基座模型,分別對於 SFT 方法和 GRPO 方法訓練相同 epoch 來對比模型性能。

  • 評測指標:用正確率評測意圖分類的準確性。


GRPO 方法與 SFT 方法的對比 :研究團隊首先對比了 SFT 方法和 GRPO 方法。直接使用原始的 GRPO 方法,在意圖識別任務上,模型可以達到與 SFT 相近的性能,在英文的 MultiWOZ2.2 數據集上做到了與 SFT 模型相同的表現,證明了 GRPO 方法在該任務上的有效性。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


為了進一步探究 GRPO 的優勢,研究團隊針對模型的泛化性進行了評測。具體來說,在 MultiWOZ 數據集上,在訓練過程中分別去掉測試集中的每個類別;在 TODAssistant 數據集上對原有的類別進行組合和細分操作,獲得新的類別,來驗證模型在該新類別上的準確性;該團隊還測試了模型的跨語言能力(在英文數據集上訓練後的模型在中文測試集上的結果)。 實驗結果表明,GRPO 方法相較於 SFT 方法,有着更好的泛化性能。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


RCS 方法實驗結果 :在此基礎上,研究團隊進一步應用 RCS 方法進行實驗。結果表明,在課程學習的第一階段,模型收斂到與原始 GRPO 方法相近的準確率;在第二階段難樣例篩選過程後,模型的準確率進一步提升。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


該團隊在課程學習第二階段的採樣過程中,對於難樣例與正常訓練數據的比例進行了實驗,隨機在其他訓練數據中採樣與難樣例混合共同訓練。結果表明,單獨訓練難樣例取得了最好的效果。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


Thought 對於訓練過程的影響 :研究團隊還探究了在意圖識別這種邏輯較為簡單的任務上 Thought 對於結果的影響。該團隊發現,在這類任務上 Thought 同樣有着關鍵的作用:在 TODAssistant 數據上,Thought 對於泛化能力的提升尤為重要;在 MultiWOZ2.2 數據集上,去掉 Thought 後模型的性能出現了大幅下降。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


Pretrain 模型和 Instruct 模型在該任務上的區別 :研究團隊發現,在意圖識別任務上,選取 Pretrain 模型或者 Instruct 模型作為底座,在經過相同的 epoch 進行 GRPO 訓練後,可以收斂到相近的性能,這與傳統的訓練經驗有所不同。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


同時該團隊還發現,instruct 模型在寬鬆格式和嚴格格式獎勵函數下的生成長度均保持穩定。然而,Pretrain 模型在寬鬆格式獎勵下生成長度先下降後上升,而嚴格格式獎勵下則無此趨勢。值得注意的是,這種長度增加並未提供有效信息。這一對比表明,類似 R1 的強化學習訓練會誘導模型通過增加輸出長度來獲取更高獎勵,但在相對簡單的意圖檢測任務中,真正的 「頓悟時刻 」 難以出現。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞

科技分類資訊推薦

民航局出台攜“充電寶”乘機新規|快訊 - 天天要聞

民航局出台攜“充電寶”乘機新規|快訊

(王瀟雨 攝影)文/王瀟雨在發生多起“充電寶”產品在航班飛行途中發生起火冒煙事件之後,中國民航局(下稱“民航局”)宣布將對旅客攜帶充電寶搭乘航班的要求出台了新的細則。按照民航局發布的緊急通知,從6月28日起,將“禁止旅客攜帶沒有3C標識、3C標識不清晰、被召回型號或批次的充電寶乘坐境內航班。”按照民航局的說...
雷軍多次參與小米YU7路測:舒適性給我留下深刻印象 - 天天要聞

雷軍多次參與小米YU7路測:舒適性給我留下深刻印象

快科技6月26日消息,小米創辦人雷軍發文表示,我們高度重視質量,在小米YU7研發過程中,僅北京到上海的道路實測這個項目我就參與了兩次,1250公里的路程全程我自己開,早上六點出發,晚上九點、十點到。第一次是去年11月,YU7還帶着重偽裝,但舒適性和靜謐性給我留下了深刻的印象。第二次是今年2月,從北到南一路上非常冷,...
騰訊搜狗輸入法聯合騰訊混元,推出AI表情合成功能 - 天天要聞

騰訊搜狗輸入法聯合騰訊混元,推出AI表情合成功能

近日,搜狗輸入法版推出「AI合成表情」與「候選表情」兩大功能,以AI技術提升用戶社交溝通體驗,其中:「AI合成表情」​基於騰訊混元大模型技術,用戶輸入文字描述或表情描述,便可毫秒級生成個性化表情包;​「候選表情」​:用戶在輸入常用文字時,候選區自動推薦高匹配度表情包,一鍵即可發送,告別手動翻找的繁瑣操作。...
企業=企業家?為何現在老闆喜歡做IP? - 天天要聞

企業=企業家?為何現在老闆喜歡做IP?

今年上半年有一件很有趣的商業趣聞。海爾董事局主席、CEO周雲傑入駐短視頻平台。發布首個視頻後,就獲贊1.9萬,急速吸粉。這海爾CEO為何跑去發短視頻呢?這背後,其實是一種時代大勢所趨。現在,很多老闆紛紛做自媒體吸粉。