泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別

2025年05月17日02:52:06 科技 1054


隨着大模型(LLMs)的快速發展和可集成工具的爆炸增長,AI 智能助手在日常生活中可提供的便利越來越多,不僅包括傳統任務型對話中訂機票、查詢天氣等助理能力,還增加了無以計數AI 能力,如 AI 畫圖、解數學題、遊戲攻略等。而 AI 智能助手準確理解用戶的意圖(Intent Detection)並路由至下游工具鏈是實現這些功能的第一步,其重要性不言而喻。


然而,工具的快速迭代、多樣化、工具之間關係的複雜化也給意圖識別帶來新的挑戰,即模型在應對新意圖時普遍存在性能衰減問題。如何在開源的輕量級 LLMs 上訓練泛化性更好、魯棒性更強的意圖識別模型,使得模型能夠更準確理解未見場景的意圖至關重要。


近日,騰訊 PCG 社交線的研究團隊針對這一問題,採用強化學習(RL)訓練方法,通過分組相對策略優化(Group Relative Policy Optimization, GRPO)算法,結合基於獎勵的課程採樣策略(Reward-based Curriculum Sampling, RCS),將其創新性地應用在意圖識別任務上,顯著提升模型在未知意圖上的泛化能力,攻克了工具爆炸引發的意圖泛化難題,推動大模型在意圖識別任務上達到新高度。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


  • 論文標題:Improving Generalization in Intent Detection: GRPO with reward-Based Curriculum Sampling

  • 論文鏈接:https://www.arxiv.org/abs/2504.13592


基於強化學習的意圖識別


該團隊進行了大量實驗,從不同維度深入剖析了 GRPO 算法在這一任務上的優勢。該工作的貢獻主要為以下四個方面:


1. 該團隊證明了在意圖檢測問題上,通過強化學習(RL)訓練的模型在泛化能力上顯著優於通過監督微調(SFT)訓練的模型,具體體現在對未見意圖和跨語言能力的泛化性能大幅提升。值得一提的是除了完全新的未見意圖,該工作還比較了對已知意圖進行拆分、合併等實際產品場景會遇到的真實問題。


2. 該團隊通過基於獎勵的課程採樣策略進一步增強了 GRPO 的訓練效果,有效引導模型在訓練過程中聚焦於更具挑戰性的樣例。


3. 在強化學習過程中引入思考(Thought),顯著提升了模型在複雜意圖檢測任務中的泛化能力。這一發現表明,在更具挑戰性的場景中,Thought 對於提升模型的泛化能力至關重要。


4. 該團隊發現,在意圖識別任務中,無論選擇預訓練模型(Pretrain)還是指令微(Instruct)調模型作為基礎,經過相同輪次的 GRPO 訓練後,兩者性能相近。這一結果與傳統訓練經驗有所不同。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


訓練方法


獎勵函數


針對強化學習訓練目標,該團隊從格式獎勵和準確率獎勵兩個維度進行引導:

泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


其中 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 分別為各獎勵分量的權重係數。


格式獎勵 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 :基於提示模板的指令規範,嚴格約束模型輸出格式。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


準確率獎勵 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 :基於意圖檢測準確率的二元獎勵函數,從模型輸出中提取預測意圖 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞

,並與真實標籤 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 進行精確匹配:


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


基於獎勵的課程採樣


該團隊採用課程學習的思路分兩步對模型進行訓練。

離線數據分類 該團隊通過離線的方法對所有數據的難度進行了分類。具體過程中先進行一遍完整的 GRPO 方法,記錄每條數據的 reward,根據每條數據的 reward 作為難度得分,如下公式所示:


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


其中 G 為採樣總數。


課程採樣 在課程學習過程中,第一階段在所有數據上進行訓練直到模型基本收斂;第二階段篩選保留 泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞 的數據作為難樣例進行訓練。這一採樣方法幫助模型在第二階段更好的關注容易出錯的難數據。


實驗:RL 能夠幫助模型理解任務而不是模仿任務識別


實驗設置:


  • 數據集:該團隊在 TODAssistant(自建中文數據集)和 MultiWOZ2.2(公開英文數據集)兩個基準上開展評測。MultiWOZ2.2 數據集是公開的 TOD 任務數據集,該研究團隊在該數據集上提取出了意圖分類這個任務。

  • 模型選取:該團隊選取 Qwen2.5-7B-Instruct 模型作為基座模型,分別對於 SFT 方法和 GRPO 方法訓練相同 epoch 來對比模型性能。

  • 評測指標:用正確率評測意圖分類的準確性。


GRPO 方法與 SFT 方法的對比 :研究團隊首先對比了 SFT 方法和 GRPO 方法。直接使用原始的 GRPO 方法,在意圖識別任務上,模型可以達到與 SFT 相近的性能,在英文的 MultiWOZ2.2 數據集上做到了與 SFT 模型相同的表現,證明了 GRPO 方法在該任務上的有效性。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


為了進一步探究 GRPO 的優勢,研究團隊針對模型的泛化性進行了評測。具體來說,在 MultiWOZ 數據集上,在訓練過程中分別去掉測試集中的每個類別;在 TODAssistant 數據集上對原有的類別進行組合和細分操作,獲得新的類別,來驗證模型在該新類別上的準確性;該團隊還測試了模型的跨語言能力(在英文數據集上訓練後的模型在中文測試集上的結果)。 實驗結果表明,GRPO 方法相較於 SFT 方法,有着更好的泛化性能。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


RCS 方法實驗結果 :在此基礎上,研究團隊進一步應用 RCS 方法進行實驗。結果表明,在課程學習的第一階段,模型收斂到與原始 GRPO 方法相近的準確率;在第二階段難樣例篩選過程後,模型的準確率進一步提升。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


該團隊在課程學習第二階段的採樣過程中,對於難樣例與正常訓練數據的比例進行了實驗,隨機在其他訓練數據中採樣與難樣例混合共同訓練。結果表明,單獨訓練難樣例取得了最好的效果。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


Thought 對於訓練過程的影響 :研究團隊還探究了在意圖識別這種邏輯較為簡單的任務上 Thought 對於結果的影響。該團隊發現,在這類任務上 Thought 同樣有着關鍵的作用:在 TODAssistant 數據上,Thought 對於泛化能力的提升尤為重要;在 MultiWOZ2.2 數據集上,去掉 Thought 後模型的性能出現了大幅下降。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


Pretrain 模型和 Instruct 模型在該任務上的區別 :研究團隊發現,在意圖識別任務上,選取 Pretrain 模型或者 Instruct 模型作為底座,在經過相同的 epoch 進行 GRPO 訓練後,可以收斂到相近的性能,這與傳統的訓練經驗有所不同。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞


同時該團隊還發現,instruct 模型在寬鬆格式和嚴格格式獎勵函數下的生成長度均保持穩定。然而,Pretrain 模型在寬鬆格式獎勵下生成長度先下降後上升,而嚴格格式獎勵下則無此趨勢。值得注意的是,這種長度增加並未提供有效信息。這一對比表明,類似 R1 的強化學習訓練會誘導模型通過增加輸出長度來獲取更高獎勵,但在相對簡單的意圖檢測任務中,真正的 「頓悟時刻 」 難以出現。


泛化性暴漲47%!首個意圖檢測獎勵範式,AI工具爆炸時代意圖識別 - 天天要聞

科技分類資訊推薦

終於來了,小米今天官宣的新機,為此我等了8年! - 天天要聞

終於來了,小米今天官宣的新機,為此我等了8年!

這兩天最重磅的消息,莫過於雷軍正式官宣了小米自研處理器玄戒01的存在。雷軍已經正式宣布,小米自主研發設計的手機處理器芯片,名稱叫做玄戒01,即將在5月下旬發布。看到雷軍發布的這個消息,毒哥還是非常感動的。
ToB話聊室:聯通聯合華為推出家庭機器人;梁文鋒發表DeepSeek V3回顧性論文 - 天天要聞

ToB話聊室:聯通聯合華為推出家庭機器人;梁文鋒發表DeepSeek V3回顧性論文

【ZOL中關村在線原創新聞】5月16日,歡迎收看《ToB話聊室》。在這裡,小編將跟你嘮一嘮科技領域的新鮮事兒。中國聯通聯合華為推出家庭機器人在今日的中國聯通“智家通通”產品發布會上,中國聯通宣布聯合華為推出家庭機器人。據中國聯通方面介紹,智家通通為全國產、全自研。自主設計,架構自主設計,外觀結構自主設計;自...
華為今天發布的4款新品,有點騷啊! - 天天要聞

華為今天發布的4款新品,有點騷啊!

在5月19日華為召開國內新品發布會之前,華為在海外市場已經召開了一次新品發布會。在這場發布會中,華為正式發布了四款新品。並且其中部分新品,也將會在國內發售。在這裡,毒哥和大家盤點一下,華為在海外市場發布了哪幾款新品。第一款新品,就是華為Wa
國產唯一六缸C級轎車煥新,25款紅旗H9還值得考慮嗎? - 天天要聞

國產唯一六缸C級轎車煥新,25款紅旗H9還值得考慮嗎?

隨着新能源車型的崛起,燃油車時代未能興盛的C級轎車,在這個時代比比皆是。雖然不少國產品牌都曾嘗試打造屬於自己的高級燃油C級轎車,但只有一個品牌成功熱銷並保持至今,這便是紅旗品牌推出的H9。為什麼說是唯一呢,因為當你在搜索器中選擇,中國品牌、中大型轎車、汽油動力
P&E2025:三星存儲攜全明星陣容亮相展台 - 天天要聞

P&E2025:三星存儲攜全明星陣容亮相展台

第26屆中國國際照相機械影像器材與技術博覽會(英文:CHINA P&E),在5月16日-19日於北京展覽館召開。作為國內地區最具影響力的攝影器材展會,P&E 2025將向廣大影像從業者,攝影愛好者集中展示近年來最新的攝影、攝像器材和相關影像技術。三星存儲攜自家存儲卡、USB閃存盤、移動固態硬盤等全系存儲產品亮相本次展會,讓參展...
松下集團擬全球裁員上萬人  家電業務在華“水土不服” - 天天要聞

松下集團擬全球裁員上萬人 家電業務在華“水土不服”

本報記者 楊讓晨 張家振 上海報道繼今年2月宣布家電業務重組後,全球家電巨頭松下集團日前表示,將在全球範圍內實現人員優化,預計規模達1萬人,主要計劃在2025年度實施。相關資料顯示,松下集團2024財年實現營業收入8.46萬億日元(約合人民幣4200億元),同比下降0.5%;凈利潤為3662億日元(約合人民幣180.6億元),同比下...
一箱油打卡三個省,風雲A8L堪稱10萬級卷王 - 天天要聞

一箱油打卡三個省,風雲A8L堪稱10萬級卷王

在這個“一杯奶茶能續一天命,但一箱油卻跑不到明天”的時代,新能源車的續航成了困擾許多車主的難言之隱。在我看來,一輛優秀的新能源車,要做到跑得遠、省得多、開得爽,坐得舒服、用得安心。而奇瑞風雲A8L——這位來自混動界的“十萬級卷王”正是以“四項全能”的姿態,狠狠