獎勵是假的,能讓Qwen提升25%性能卻是真的!

2025年05月29日18:53:07 科技 1432

鷺羽 發自 凹非寺

量子位 | 公眾號 QbitAI

即使RLVR(可驗證獎勵強化學習)使用錯誤的獎勵信號,Qwen性能也能得到顯著提升?

甚至還和真實獎勵相差無幾。

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

自從RLVR被DeepSeek-R1帶火,RL推理研究層出不窮,走進了蜜月期。

這不,來自華盛頓大學的一群博士生來火上澆油了——

使用Qwen模型(尤其是數學版本),對虛假獎勵進行RLVR,仍然可以將MATH-500的絕對準確率顯著提升約25%

團隊實驗發現:

RLVR通過激活預訓練中的推理能力來提升性能,但不考慮獎勵信號的正確性。

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

這徹底顛覆了既往大家對RLVR的認知,原來那些年在虛假獎勵上踩過的坑,還真能實現彎道超車?

X上的網友們紛紛表示,強烈建議每位RLVR研究員都來讀一讀,尤其是那些圍繞Qwen模型精心構造獎勵函數的研究員們,該瑟瑟發抖了……

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

Qwen自家的研究員Binyuan Hui也在評論區現身:

也許是預訓練數據混合以某種方式意外導致了一些有用的行為,又一次側面印證了代碼推理的重要性。

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

具體啥情況?下面我們娓娓道來。

虛假獎勵帶來顯著的RLVR增益

此前已有研究證明,RLVR在提升語言模型推理能力上非常有效,核心思想是利用可自動驗證的獎勵信號優化

普遍研究都默認優化效果依賴獎勵的正確性,但研究團隊反直覺地認為其中必有蹊蹺——虛假獎勵或許也能“變廢為寶”?

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

於是說干就干,開始大膽假設,小心求證。

從實驗出發

為測試RLVR提升數學推理能力所需的最低監督下限,團隊設計了一系列逐步簡化的獎勵函數替代標準真實獎勵:

  1. 真實獎勵:使用真實標籤對可驗證正確的回答給予獎勵,將其作為獎勵監督質量的上限。
  2. 多數投票獎勵:在微調前利用模型對訓練集進行偽標註,即對每個提示採樣64個響應並選取多數答案,再基於這些(可能錯誤的)標籤進行獎勵。
  3. 格式獎勵:進一步弱化獎勵信號,獎勵所有包含至少一個非空\boxed {}表達式的響應,完全忽略回答的數學正確性。
  4. 隨機獎勵:在獎勵過程中不提供任何指導,直接給定一個固定概率超參數隨機分配獎勵,其中1的概率為,0為,主實驗中設置。
  5. 錯誤獎勵:故意提供錯誤的監督,只獎勵錯誤答案,即先用多數投票法標註所有訓練數據,選擇錯誤標籤的子集進行訓練,並給予對應的響應獎勵。

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

基於GRPO方法微調Qwen2.5-Math模型,再使用不同獎勵函數進行RLVR訓練。

實驗結果表明,與未調優的基線模型相比,所有獎勵函數(即使是設計上存在問題的函數),均能在所有基準測試的前50步內顯著提升數學推理性能。

值得注意的是,虛假獎勵帶來的性能提升,與基於真實標籤的RLVR提升幅度,相差只有幾個百分點

例如,在MATH500基準上,使用錯誤標籤獎勵進行訓練可提升24.6%,而基於真實答案的RLVR提升幅度只有28.8%,即使是提供純噪音的隨機獎勵,也仍能帶來 21.4%的性能提升。

因此團隊證明,即使是完全錯誤的獎勵或隨機獎勵,也能在Qwen2.5-Math模型中激發性能提升。

但在進一步的研究中,他們發現這種奇怪的增益只有利於Qwen2.5系列模型,其餘非 Qwen模型的性能在虛假獎勵下幾乎無變化,甚至還會出現下降的趨勢。

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

這又是怎麼一回事呢?研究團隊只好又開始挖掘模型差異的根源。

為什麼虛假獎勵有效

通過分析Qwen2.5-Math-7B和OLMo2-7B的推理軌跡,團隊發現預訓練期間,模型學習到的特定推理策略差異是關鍵。

Qwen2.5-Math-7B頻繁生成Python代碼輔助思考過程 (占所有回答的 65.0%),儘管無法執行,但這種代碼推理行為在一定程度上,與答案準確率高度正相關。

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

但該模式在其他模型中並未有所發現,例如Llama、Qwen2.5-1.5B以及OLMo2-7B完全不生成代碼,無法從此推理策略中獲益。

OLMo2-7B-SFT和Qwen2.5-7B雖然也頻繁嘗試使用代碼推理,但該策略反而會降低模型性能。

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

而基於虛假獎勵的RLVR可以有效增強代碼推理頻率,如Qwen2.5-Math-7B在進行RLVR訓練後,代碼推理頻率在最初15步內,迅速從65%提升至約90%。

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

此外,通過分析隨機獎勵也能提升性能的特殊情況,研究人員還發現一個有趣的結論:GRPO的裁剪偏差可能會誘導隨機獎勵生成有益的訓練信號,增加代碼推理行為,從而實現性能提升。

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

One More Thing

本項目是由多位華人學者共同完成的,他們目前都在華盛頓大學的NLP小組讀博。

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

而當論文作者Stella Li在X上發帖介紹自己的論文時,我們注意到評論區有這樣一位網友的留言,他指出在模型改進中,也許「結果不重要,推理過程才重要」

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞


Stella Li的回復也提出了另外一種可能,也許
錯誤推理+正確答案或者正確推理+錯誤答案,可能也會幫助OLMo2-7B-SFT實現類似Qwen在虛假獎勵下的性能增益。

獎勵是假的,能讓Qwen提升25%性能卻是真的! - 天天要聞

另外,作者也溫馨提示,現有的以Qwen為中心的RLVR研究可能需要在非Qwen模型上做進一步驗證,不要只盯着單一模型做漂亮數值提升的工作,因為那可能意義並不大。

項目鏈接:https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f
代碼鏈接:https://github.com/ruixin31/Rethink_RLVR
論文鏈接:https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

參考鏈接:
[1]https://x.com/StellaLisy/status/1927392717593526780
[2]https://x.com/huybery/status/1927434422934028358
[3]https://x.com/RulinShao/status/1927442751462707524

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

科技分類資訊推薦

雷軍感謝網友15年不離不棄:大家的支持是不斷前行最大的動力 - 天天要聞

雷軍感謝網友15年不離不棄:大家的支持是不斷前行最大的動力

5月30日,有網友在社交平台發布繼SU7創始版後,再提SU7 Ultra的圖文,並表示“今天帶着小米手機1代和15S Pro提SU7 Ultra,第一款手機,第一款車,第一款玄戒芯片,也是一種紀念。”對此,雷軍發文祝賀:“感謝15年的不離不棄,大家的支持是我們不斷前行最大的動力!我們一定會不斷進步,越來越好!”(來源:瀟湘晨報)更多...
Visa亞太區邁入AI驅動的商業新時代 - 天天要聞

Visa亞太區邁入AI驅動的商業新時代

5月30日 ,Visa 在亞太區產品發布會上展示了商業的未來。Visa發布了多項創新項目及戰略合作,助力亞太區邁入商業新時代。 Visa 首席產品和戰略官 Jack Forestell 表示:“結合Visa的全球網絡實力以及在亞太地區支付創新方面的領導地位,我們正在推出能夠改變商業模式的全新產品和解決方案,為整個地區的AI驅動的支付提供信...
金亨泰公開《劍星》PC 版所需筆記本電腦配置:最低 RTX 3050 Ti - 天天要聞

金亨泰公開《劍星》PC 版所需筆記本電腦配置:最低 RTX 3050 Ti

IT之家 5 月 30 日消息,Shift Up 旗下動作遊戲《劍星》已在 Steam 開啟預購,標準版售價 268 元,豪華版售價 358 元,將於 6 月 12 日解鎖。今日,《劍星》製作人金亨泰在微博公開了該遊戲的 PC 版所需筆記本電腦配置,IT之家附信息如下:低配(1080P 60 幀低畫質)需要英特爾酷睿 i7-11370H 以及 RTX 305
超100吋的電視里,藏着中國面板產業的護城河 - 天天要聞

超100吋的電視里,藏着中國面板產業的護城河

文源 | 源Sight作者 | 周藝80年代,一台14吋的黑白電視機前會擠三四個家庭,十幾口人。那時候,一台“大屁股”電視至少要花去一個雙職工家庭一年的工資。從1958年誕生第一台國產電視機到80年代中後期在社會中普及,中國的電視產業走了30年,也只是在追趕,而進入千禧年後到現在,液晶電視機的產業格局已經發生了翻天覆地的...
任天堂Switch2證件照曝光 配備額定容量5220mAh電池 - 天天要聞

任天堂Switch2證件照曝光 配備額定容量5220mAh電池

【太平洋科技快訊】近日,任天堂全新一代遊戲掌機 Switch 2 已現身 NCC 認證網站,型號為 BEE-001。此次曝光揭示了 Switch 2 的多項關鍵規格。Switch 2 配備了一塊 7.9 英寸的 LCD 屏幕,分辨率高達 1920×1080 像素,並支持 HDR10 和 120Hz 刷新率。續航方面,Switch 2 設備配備了額定容量為 5
REDMI平板2曝光 聯發科Helio G100 Ultra芯片加持 - 天天要聞

REDMI平板2曝光 聯發科Helio G100 Ultra芯片加持

【太平洋科技快訊】近日,相關消息提前曝光了小米即將推出的 REDMI 平板 2 的開箱和初步上手體驗。這款平板主打高性價比,搭載聯發科 Helio G100 Ultra 芯片。據悉,聯發科 Helio G100 Ultra 採用台積電 6nm 工藝打造,擁有 2 個 2.2GHz Cortex-A76 核心和 6 個 2.0GHz Cortex-A55 核心
消息稱華為Pura80系列將於6月發布 Ultra配備國產一英寸主攝 - 天天要聞

消息稱華為Pura80系列將於6月發布 Ultra配備國產一英寸主攝

【太平洋科技快訊】近日,據相關消息透露,華為Pura 80系列將於2025年6月正式發布,並於7月初開啟預售。作為Pura系列的迭代產品,Pura 80系列延續了影像旗艦的定位。Pura 80 Ultra配備了5000萬像素的1英寸思特威SC5A0CS主攝,這顆傳感器採用了RYYB濾光陣列,相比傳統的RGGB陣列,進光量提升了約40%。此外,該主攝還支持f/