隨着大模型(LLMs)的快速發展和可集成工具的爆炸增長,AI 智能助手在日常生活中可提供的便利越來越多,不僅包括傳統任務型對話中訂機票、查詢天氣等助理能力,還增加了無以計數的 AI 能力,如 AI 畫圖、解數學題、遊戲攻略等。而 AI 智能助手準確理解用戶的意圖(Intent Detection)並路由至下游工具鏈是實現這些功能的第一步,其重要性不言而喻。
然而,工具的快速迭代、多樣化、工具之間關係的複雜化也給意圖識別帶來新的挑戰,即模型在應對新意圖時普遍存在性能衰減問題。如何在開源的輕量級 LLMs 上訓練泛化性更好、魯棒性更強的意圖識別模型,使得模型能夠更準確理解未見場景的意圖至關重要。
近日,騰訊 PCG 社交線的研究團隊針對這一問題,採用強化學習(RL)訓練方法,通過分組相對策略優化(Group Relative Policy Optimization, GRPO)算法,結合基於獎勵的課程採樣策略(Reward-based Curriculum Sampling, RCS),將其創新性地應用在意圖識別任務上,顯著提升模型在未知意圖上的泛化能力,攻克了工具爆炸引發的意圖泛化難題,推動大模型在意圖識別任務上達到新高度。

-
論文標題:Improving Generalization in Intent Detection: GRPO with reward-Based Curriculum Sampling
-
論文鏈接:https://www.arxiv.org/abs/2504.13592
基於強化學習的意圖識別
該團隊進行了大量實驗,從不同維度深入剖析了 GRPO 算法在這一任務上的優勢。該工作的貢獻主要為以下四個方面:
1. 該團隊證明了在意圖檢測問題上,通過強化學習(RL)訓練的模型在泛化能力上顯著優於通過監督微調(SFT)訓練的模型,具體體現在對未見意圖和跨語言能力的泛化性能大幅提升。值得一提的是除了完全新的未見意圖,該工作還比較了對已知意圖進行拆分、合併等實際產品場景會遇到的真實問題。
2. 該團隊通過基於獎勵的課程採樣策略進一步增強了 GRPO 的訓練效果,有效引導模型在訓練過程中聚焦於更具挑戰性的樣例。
3. 在強化學習過程中引入思考(Thought),顯著提升了模型在複雜意圖檢測任務中的泛化能力。這一發現表明,在更具挑戰性的場景中,Thought 對於提升模型的泛化能力至關重要。
4. 該團隊發現,在意圖識別任務中,無論選擇預訓練模型(Pretrain)還是指令微(Instruct)調模型作為基礎,經過相同輪次的 GRPO 訓練後,兩者性能相近。這一結果與傳統訓練經驗有所不同。

訓練方法
獎勵函數
針對強化學習訓練目標,該團隊從格式獎勵和準確率獎勵兩個維度進行引導:

其中
和
分別為各獎勵分量的權重係數。
格式獎勵
:基於提示模板的指令規範,嚴格約束模型輸出格式。

準確率獎勵
:基於意圖檢測準確率的二元獎勵函數,從模型輸出中提取預測意圖
,並與真實標籤
進行精確匹配:

基於獎勵的課程採樣
該團隊採用課程學習的思路分兩步對模型進行訓練。
離線數據分類 該團隊通過離線的方法對所有數據的難度進行了分類。具體過程中先進行一遍完整的 GRPO 方法,記錄每條數據的 reward,根據每條數據的 reward 作為難度得分,如下公式所示:

其中 G 為採樣總數。
課程採樣
在課程學習過程中,第一階段在所有數據上進行訓練直到模型基本收斂;第二階段篩選保留
的數據作為難樣例進行訓練。這一採樣方法幫助模型在第二階段更好的關注容易出錯的難數據。
實驗:RL 能夠幫助模型理解任務而不是模仿任務識別
實驗設置:
-
數據集:該團隊在 TODAssistant(自建中文數據集)和 MultiWOZ2.2(公開英文數據集)兩個基準上開展評測。MultiWOZ2.2 數據集是公開的 TOD 任務數據集,該研究團隊在該數據集上提取出了意圖分類這個任務。
-
模型選取:該團隊選取 Qwen2.5-7B-Instruct 模型作為基座模型,分別對於 SFT 方法和 GRPO 方法訓練相同 epoch 來對比模型性能。
-
評測指標:用正確率評測意圖分類的準確性。
GRPO 方法與 SFT 方法的對比 :研究團隊首先對比了 SFT 方法和 GRPO 方法。直接使用原始的 GRPO 方法,在意圖識別任務上,模型可以達到與 SFT 相近的性能,在英文的 MultiWOZ2.2 數據集上做到了與 SFT 模型相同的表現,證明了 GRPO 方法在該任務上的有效性。

為了進一步探究 GRPO 的優勢,研究團隊針對模型的泛化性進行了評測。具體來說,在 MultiWOZ 數據集上,在訓練過程中分別去掉測試集中的每個類別;在 TODAssistant 數據集上對原有的類別進行組合和細分操作,獲得新的類別,來驗證模型在該新類別上的準確性;該團隊還測試了模型的跨語言能力(在英文數據集上訓練後的模型在中文測試集上的結果)。 實驗結果表明,GRPO 方法相較於 SFT 方法,有着更好的泛化性能。


RCS 方法實驗結果 :在此基礎上,研究團隊進一步應用 RCS 方法進行實驗。結果表明,在課程學習的第一階段,模型收斂到與原始 GRPO 方法相近的準確率;在第二階段難樣例篩選過程後,模型的準確率進一步提升。

該團隊在課程學習第二階段的採樣過程中,對於難樣例與正常訓練數據的比例進行了實驗,隨機在其他訓練數據中採樣與難樣例混合共同訓練。結果表明,單獨訓練難樣例取得了最好的效果。

Thought 對於訓練過程的影響 :研究團隊還探究了在意圖識別這種邏輯較為簡單的任務上 Thought 對於結果的影響。該團隊發現,在這類任務上 Thought 同樣有着關鍵的作用:在 TODAssistant 數據上,Thought 對於泛化能力的提升尤為重要;在 MultiWOZ2.2 數據集上,去掉 Thought 後模型的性能出現了大幅下降。

Pretrain 模型和 Instruct 模型在該任務上的區別 :研究團隊發現,在意圖識別任務上,選取 Pretrain 模型或者 Instruct 模型作為底座,在經過相同的 epoch 進行 GRPO 訓練後,可以收斂到相近的性能,這與傳統的訓練經驗有所不同。

同時該團隊還發現,instruct 模型在寬鬆格式和嚴格格式獎勵函數下的生成長度均保持穩定。然而,Pretrain 模型在寬鬆格式獎勵下生成長度先下降後上升,而嚴格格式獎勵下則無此趨勢。值得注意的是,這種長度增加並未提供有效信息。這一對比表明,類似 R1 的強化學習訓練會誘導模型通過增加輸出長度來獲取更高獎勵,但在相對簡單的意圖檢測任務中,真正的 「頓悟時刻 」 難以出現。
