泛化性暴漲47%！首個意圖檢測獎勵範式，AI工具爆炸時代意圖識別

2025年05月17日02:52:06 科技 1054

隨著大模型（LLMs）的快速發展和可集成工具的爆炸增長，AI 智能助手在日常生活中可提供的便利越來越多，不僅包括傳統任務型對話中訂機票、查詢天氣等助理能力，還增加了無以計數的 AI 能力，如 AI 畫圖、解數學題、遊戲攻略等。而 AI 智能助手準確理解用戶的意圖（Intent Detection）並路由至下游工具鏈是實現這些功能的第一步，其重要性不言而喻。

然而，工具的快速迭代、多樣化、工具之間關係的複雜化也給意圖識別帶來新的挑戰，即模型在應對新意圖時普遍存在性能衰減問題。如何在開源的輕量級 LLMs 上訓練泛化性更好、魯棒性更強的意圖識別模型，使得模型能夠更準確理解未見場景的意圖至關重要。

近日，騰訊 PCG 社交線的研究團隊針對這一問題，採用強化學習（RL）訓練方法，通過分組相對策略優化（Group Relative Policy Optimization, GRPO）演算法，結合基於獎勵的課程採樣策略（Reward-based Curriculum Sampling, RCS），將其創新性地應用在意圖識別任務上，顯著提升模型在未知意圖上的泛化能力，攻克了工具爆炸引發的意圖泛化難題，推動大模型在意圖識別任務上達到新高度。

論文標題：Improving Generalization in Intent Detection: GRPO with reward-Based Curriculum Sampling
論文鏈接：https://www.arxiv.org/abs/2504.13592

基於強化學習的意圖識別

該團隊進行了大量實驗，從不同維度深入剖析了 GRPO 演算法在這一任務上的優勢。該工作的貢獻主要為以下四個方面：

1. 該團隊證明了在意圖檢測問題上，通過強化學習（RL）訓練的模型在泛化能力上顯著優於通過監督微調（SFT）訓練的模型，具體體現在對未見意圖和跨語言能力的泛化性能大幅提升。值得一提的是除了完全新的未見意圖，該工作還比較了對已知意圖進行拆分、合併等實際產品場景會遇到的真實問題。

2. 該團隊通過基於獎勵的課程採樣策略進一步增強了 GRPO 的訓練效果，有效引導模型在訓練過程中聚焦於更具挑戰性的樣例。

3. 在強化學習過程中引入思考（Thought），顯著提升了模型在複雜意圖檢測任務中的泛化能力。這一發現表明，在更具挑戰性的場景中，Thought 對於提升模型的泛化能力至關重要。

4. 該團隊發現，在意圖識別任務中，無論選擇預訓練模型（Pretrain）還是指令微（Instruct）調模型作為基礎，經過相同輪次的 GRPO 訓練後，兩者性能相近。這一結果與傳統訓練經驗有所不同。

訓練方法

獎勵函數

針對強化學習訓練目標，該團隊從格式獎勵和準確率獎勵兩個維度進行引導：

其中和分別為各獎勵分量的權重係數。

格式獎勵：基於提示模板的指令規範，嚴格約束模型輸出格式。

準確率獎勵：基於意圖檢測準確率的二元獎勵函數，從模型輸出中提取預測意圖

，並與真實標籤

進行精確匹配：

基於獎勵的課程採樣

該團隊採用課程學習的思路分兩步對模型進行訓練。

離線數據分類該團隊通過離線的方法對所有數據的難度進行了分類。具體過程中先進行一遍完整的 GRPO 方法，記錄每條數據的 reward，根據每條數據的 reward 作為難度得分，如下公式所示：

其中 G 為採樣總數。

課程採樣在課程學習過程中，第一階段在所有數據上進行訓練直到模型基本收斂；第二階段篩選保留的數據作為難樣例進行訓練。這一採樣方法幫助模型在第二階段更好的關注容易出錯的難數據。

實驗：RL 能夠幫助模型理解任務而不是模仿任務識別

實驗設置：

數據集：該團隊在 TODAssistant（自建中文數據集）和 MultiWOZ2.2（公開英文數據集）兩個基準上開展評測。MultiWOZ2.2 數據集是公開的 TOD 任務數據集，該研究團隊在該數據集上提取出了意圖分類這個任務。
模型選取：該團隊選取 Qwen2.5-7B-Instruct 模型作為基座模型，分別對於 SFT 方法和 GRPO 方法訓練相同 epoch 來對比模型性能。
評測指標：用正確率評測意圖分類的準確性。

GRPO 方法與 SFT 方法的對比：研究團隊首先對比了 SFT 方法和 GRPO 方法。直接使用原始的 GRPO 方法，在意圖識別任務上，模型可以達到與 SFT 相近的性能，在英文的 MultiWOZ2.2 數據集上做到了與 SFT 模型相同的表現，證明了 GRPO 方法在該任務上的有效性。

為了進一步探究 GRPO 的優勢，研究團隊針對模型的泛化性進行了評測。具體來說，在 MultiWOZ 數據集上，在訓練過程中分別去掉測試集中的每個類別；在 TODAssistant 數據集上對原有的類別進行組合和細分操作，獲得新的類別，來驗證模型在該新類別上的準確性；該團隊還測試了模型的跨語言能力（在英文數據集上訓練後的模型在中文測試集上的結果）。實驗結果表明，GRPO 方法相較於 SFT 方法，有著更好的泛化性能。

RCS 方法實驗結果：在此基礎上，研究團隊進一步應用 RCS 方法進行實驗。結果表明，在課程學習的第一階段，模型收斂到與原始 GRPO 方法相近的準確率；在第二階段難樣例篩選過程後，模型的準確率進一步提升。

該團隊在課程學習第二階段的採樣過程中，對於難樣例與正常訓練數據的比例進行了實驗，隨機在其他訓練數據中採樣與難樣例混合共同訓練。結果表明，單獨訓練難樣例取得了最好的效果。

Thought 對於訓練過程的影響：研究團隊還探究了在意圖識別這種邏輯較為簡單的任務上 Thought 對於結果的影響。該團隊發現，在這類任務上 Thought 同樣有著關鍵的作用：在 TODAssistant 數據上，Thought 對於泛化能力的提升尤為重要；在 MultiWOZ2.2 數據集上，去掉 Thought 後模型的性能出現了大幅下降。

Pretrain 模型和 Instruct 模型在該任務上的區別：研究團隊發現，在意圖識別任務上，選取 Pretrain 模型或者 Instruct 模型作為底座，在經過相同的 epoch 進行 GRPO 訓練後，可以收斂到相近的性能，這與傳統的訓練經驗有所不同。

同時該團隊還發現，instruct 模型在寬鬆格式和嚴格格式獎勵函數下的生成長度均保持穩定。然而，Pretrain 模型在寬鬆格式獎勵下生成長度先下降後上升，而嚴格格式獎勵下則無此趨勢。值得注意的是，這種長度增加並未提供有效信息。這一對比表明，類似 R1 的強化學習訓練會誘導模型通過增加輸出長度來獲取更高獎勵，但在相對簡單的意圖檢測任務中，真正的「頓悟時刻」難以出現。