泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別

2025年05月17日02:52:06 科技 1054


隨著大模型(LLMs)的快速發展和可集成工具的爆炸增長,AI 智能助手在日常生活中可提供的便利越來越多,不僅包括傳統任務型對話中訂機票、查詢天氣等助理能力,還增加了無以計數AI 能力,如 AI 畫圖、解數學題、遊戲攻略等。而 AI 智能助手準確理解用戶的意圖(Intent Detection)並路由至下游工具鏈是實現這些功能的第一步,其重要性不言而喻。


然而,工具的快速迭代、多樣化、工具之間關係的複雜化也給意圖識別帶來新的挑戰,即模型在應對新意圖時普遍存在性能衰減問題。如何在開源的輕量級 LLMs 上訓練泛化性更好、魯棒性更強的意圖識別模型,使得模型能夠更準確理解未見場景的意圖至關重要。


近日,騰訊 PCG 社交線的研究團隊針對這一問題,採用強化學習(RL)訓練方法,通過分組相對策略優化(Group Relative Policy Optimization, GRPO)演算法,結合基於獎勵的課程採樣策略(Reward-based Curriculum Sampling, RCS),將其創新性地應用在意圖識別任務上,顯著提升模型在未知意圖上的泛化能力,攻克了工具爆炸引發的意圖泛化難題,推動大模型在意圖識別任務上達到新高度。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


  • 論文標題:Improving Generalization in Intent Detection: GRPO with reward-Based Curriculum Sampling

  • 論文鏈接:https://www.arxiv.org/abs/2504.13592


基於強化學習的意圖識別


該團隊進行了大量實驗,從不同維度深入剖析了 GRPO 演算法在這一任務上的優勢。該工作的貢獻主要為以下四個方面:


1. 該團隊證明了在意圖檢測問題上,通過強化學習(RL)訓練的模型在泛化能力上顯著優於通過監督微調(SFT)訓練的模型,具體體現在對未見意圖和跨語言能力的泛化性能大幅提升。值得一提的是除了完全新的未見意圖,該工作還比較了對已知意圖進行拆分、合併等實際產品場景會遇到的真實問題。


2. 該團隊通過基於獎勵的課程採樣策略進一步增強了 GRPO 的訓練效果,有效引導模型在訓練過程中聚焦於更具挑戰性的樣例。


3. 在強化學習過程中引入思考(Thought),顯著提升了模型在複雜意圖檢測任務中的泛化能力。這一發現表明,在更具挑戰性的場景中,Thought 對於提升模型的泛化能力至關重要。


4. 該團隊發現,在意圖識別任務中,無論選擇預訓練模型(Pretrain)還是指令微(Instruct)調模型作為基礎,經過相同輪次的 GRPO 訓練後,兩者性能相近。這一結果與傳統訓練經驗有所不同。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


訓練方法


獎勵函數


針對強化學習訓練目標,該團隊從格式獎勵和準確率獎勵兩個維度進行引導:

泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


其中 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 分別為各獎勵分量的權重係數。


格式獎勵 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 :基於提示模板的指令規範,嚴格約束模型輸出格式。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


準確率獎勵 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 :基於意圖檢測準確率的二元獎勵函數,從模型輸出中提取預測意圖 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞

,並與真實標籤 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 進行精確匹配:


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


基於獎勵的課程採樣


該團隊採用課程學習的思路分兩步對模型進行訓練。

離線數據分類 該團隊通過離線的方法對所有數據的難度進行了分類。具體過程中先進行一遍完整的 GRPO 方法,記錄每條數據的 reward,根據每條數據的 reward 作為難度得分,如下公式所示:


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


其中 G 為採樣總數。


課程採樣 在課程學習過程中,第一階段在所有數據上進行訓練直到模型基本收斂;第二階段篩選保留 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 的數據作為難樣例進行訓練。這一採樣方法幫助模型在第二階段更好的關注容易出錯的難數據。


實驗:RL 能夠幫助模型理解任務而不是模仿任務識別


實驗設置:


  • 數據集:該團隊在 TODAssistant(自建中文數據集)和 MultiWOZ2.2(公開英文數據集)兩個基準上開展評測。MultiWOZ2.2 數據集是公開的 TOD 任務數據集,該研究團隊在該數據集上提取出了意圖分類這個任務。

  • 模型選取:該團隊選取 Qwen2.5-7B-Instruct 模型作為基座模型,分別對於 SFT 方法和 GRPO 方法訓練相同 epoch 來對比模型性能。

  • 評測指標:用正確率評測意圖分類的準確性。


GRPO 方法與 SFT 方法的對比 :研究團隊首先對比了 SFT 方法和 GRPO 方法。直接使用原始的 GRPO 方法,在意圖識別任務上,模型可以達到與 SFT 相近的性能,在英文的 MultiWOZ2.2 數據集上做到了與 SFT 模型相同的表現,證明了 GRPO 方法在該任務上的有效性。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


為了進一步探究 GRPO 的優勢,研究團隊針對模型的泛化性進行了評測。具體來說,在 MultiWOZ 數據集上,在訓練過程中分別去掉測試集中的每個類別;在 TODAssistant 數據集上對原有的類別進行組合和細分操作,獲得新的類別,來驗證模型在該新類別上的準確性;該團隊還測試了模型的跨語言能力(在英文數據集上訓練後的模型在中文測試集上的結果)。 實驗結果表明,GRPO 方法相較於 SFT 方法,有著更好的泛化性能。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


RCS 方法實驗結果 :在此基礎上,研究團隊進一步應用 RCS 方法進行實驗。結果表明,在課程學習的第一階段,模型收斂到與原始 GRPO 方法相近的準確率;在第二階段難樣例篩選過程後,模型的準確率進一步提升。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


該團隊在課程學習第二階段的採樣過程中,對於難樣例與正常訓練數據的比例進行了實驗,隨機在其他訓練數據中採樣與難樣例混合共同訓練。結果表明,單獨訓練難樣例取得了最好的效果。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


Thought 對於訓練過程的影響 :研究團隊還探究了在意圖識別這種邏輯較為簡單的任務上 Thought 對於結果的影響。該團隊發現,在這類任務上 Thought 同樣有著關鍵的作用:在 TODAssistant 數據上,Thought 對於泛化能力的提升尤為重要;在 MultiWOZ2.2 數據集上,去掉 Thought 後模型的性能出現了大幅下降。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


Pretrain 模型和 Instruct 模型在該任務上的區別 :研究團隊發現,在意圖識別任務上,選取 Pretrain 模型或者 Instruct 模型作為底座,在經過相同的 epoch 進行 GRPO 訓練後,可以收斂到相近的性能,這與傳統的訓練經驗有所不同。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


同時該團隊還發現,instruct 模型在寬鬆格式和嚴格格式獎勵函數下的生成長度均保持穩定。然而,Pretrain 模型在寬鬆格式獎勵下生成長度先下降後上升,而嚴格格式獎勵下則無此趨勢。值得注意的是,這種長度增加並未提供有效信息。這一對比表明,類似 R1 的強化學習訓練會誘導模型通過增加輸出長度來獲取更高獎勵,但在相對簡單的意圖檢測任務中,真正的 「頓悟時刻 」 難以出現。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞

科技分類資訊推薦

百度向北京工商大學捐贈自動駕駛車 - 天天要聞

百度向北京工商大學捐贈自動駕駛車

6月15日,百度Apollo正式向北京工商大學計算機與人工智慧學院捐贈自動駕駛車輛,並提供完整的全套自動駕駛套件,包括使用Apollo開放平台、自行搭建教學系統等,為北京工商大學自動駕駛科研教育和人....
無線充電板大比拼,誰充電又快又穩? - 天天要聞

無線充電板大比拼,誰充電又快又穩?

在這個科技飛速發展的時代,無線充電板已經成了很多人生活中的必備好物。它擺脫了傳統充電線的束縛,讓充電變得更加便捷。不過市面上的無線充電板琳琅滿目,哪款才是充電又快又穩的王者呢?今天咱們就來深度測評一番。首先得了解下無線充電的原理。
紅米手機曾現考試「失聲」故障!平台:非歧視,為歷史技術問題 - 天天要聞

紅米手機曾現考試「失聲」故障!平台:非歧視,為歷史技術問題

針對山東科技大學本科綜合評價招生面試中「禁用紅米系列手機」引發的爭議,第三方考試技術支持平台「小藝幫」所屬深圳市即構科技有限公司正式回應,承認此前紅米手機在考試場景中存在「聲音採集異常」的技術問題,並表示已與小米公司溝通,將啟動大規模重新測
權威數讀丨頂住壓力平穩運行!九組數據感知我國經濟韌性活力 - 天天要聞

權威數讀丨頂住壓力平穩運行!九組數據感知我國經濟韌性活力

國家統計局、國家郵政局、中國人民銀行等部門近日陸續發布5月份及前5個月我國經濟運行相關數據。最新數據顯示,隨著政策組合效應持續釋放,穩經濟促發展效果顯現,國民經濟頂住壓力,保持總體平穩、穩中有進發展態勢,生產需求穩定增長,新動能成長壯大,高質量發展向優向新。跟隨這九組數據,一起感知我國經濟的韌性和活力...
58家韻達快遞加盟企業被處罰 - 天天要聞

58家韻達快遞加盟企業被處罰

央廣網北京6月16日消息 天眼查App顯示,近日,上海韻達貨運有限公司因未按規定履行安全保障統一管理責任,存在未按規定執行實名收寄制度、未按規定備案協議客戶、違規收寄禁寄物品等行為,被國家郵政局罰款4萬元。處罰事由顯示,2025年3月,因韻達快遞部分加盟企業對協議客戶安全管理存在重大漏洞,導致涉詐騙宣傳品進入寄...
奧迪E5 Sportback申報信息曝光!續航里程超700km - 天天要聞

奧迪E5 Sportback申報信息曝光!續航里程超700km

在汽車行業加速向電動化轉型的當下,各大車企紛紛發力,推出令人矚目的新能源車型。近日,奧迪E5 Sportback的申報信息曝光,其超700km的續航里程更是成為了關注焦點,引發眾多消費者和車迷的熱議。