獎勵是假的，能讓Qwen提升25%性能卻是真的！

2025年05月29日18:53:07 科技 1432

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI

即使RLVR（可驗證獎勵強化學習）使用錯誤的獎勵信號，Qwen性能也能得到顯著提升？

甚至還和真實獎勵相差無幾。

自從RLVR被DeepSeek-R1帶火，RL推理研究層出不窮，走進了蜜月期。

這不，來自華盛頓大學的一群博士生來火上澆油了——

使用Qwen模型（尤其是數學版本），對虛假獎勵進行RLVR，仍然可以將MATH-500的絕對準確率顯著提升約25%。

團隊實驗發現：

RLVR通過激活預訓練中的推理能力來提升性能，但不考慮獎勵信號的正確性。

這徹底顛覆了既往大家對RLVR的認知，原來那些年在虛假獎勵上踩過的坑，還真能實現彎道超車？

X上的網友們紛紛表示，強烈建議每位RLVR研究員都來讀一讀，尤其是那些圍繞Qwen模型精心構造獎勵函數的研究員們，該瑟瑟發抖了……

Qwen自家的研究員Binyuan Hui也在評論區現身：

也許是預訓練數據混合以某種方式意外導致了一些有用的行為，又一次側面印證了代碼推理的重要性。

具體啥情況？下面我們娓娓道來。

虛假獎勵帶來顯著的RLVR增益

此前已有研究證明，RLVR在提升語言模型推理能力上非常有效，核心思想是利用可自動驗證的獎勵信號優化。

普遍研究都默認優化效果依賴獎勵的正確性，但研究團隊反直覺地認為其中必有蹊蹺——虛假獎勵或許也能「變廢為寶」？

於是說干就干，開始大膽假設，小心求證。

從實驗出發

為測試RLVR提升數學推理能力所需的最低監督下限，團隊設計了一系列逐步簡化的獎勵函數替代標準真實獎勵：

真實獎勵：使用真實標籤對可驗證正確的回答給予獎勵，將其作為獎勵監督質量的上限。
多數投票獎勵：在微調前利用模型對訓練集進行偽標註，即對每個提示採樣64個響應並選取多數答案，再基於這些（可能錯誤的）標籤進行獎勵。
格式獎勵：進一步弱化獎勵信號，獎勵所有包含至少一個非空\boxed {}表達式的響應，完全忽略回答的數學正確性。
隨機獎勵：在獎勵過程中不提供任何指導，直接給定一個固定概率超參數隨機分配獎勵，其中1的概率為，0為，主實驗中設置。
錯誤獎勵：故意提供錯誤的監督，只獎勵錯誤答案，即先用多數投票法標註所有訓練數據，選擇錯誤標籤的子集進行訓練，並給予對應的響應獎勵。

基於GRPO方法微調Qwen2.5-Math模型，再使用不同獎勵函數進行RLVR訓練。

實驗結果表明，與未調優的基線模型相比，所有獎勵函數（即使是設計上存在問題的函數），均能在所有基準測試的前50步內顯著提升數學推理性能。

值得注意的是，虛假獎勵帶來的性能提升，與基於真實標籤的RLVR提升幅度，相差只有幾個百分點。

例如，在MATH500基準上，使用錯誤標籤獎勵進行訓練可提升24.6%，而基於真實答案的RLVR提升幅度只有28.8%，即使是提供純噪音的隨機獎勵，也仍能帶來 21.4%的性能提升。

因此團隊證明，即使是完全錯誤的獎勵或隨機獎勵，也能在Qwen2.5-Math模型中激發性能提升。

但在進一步的研究中，他們發現這種奇怪的增益只有利於Qwen2.5系列模型，其餘非 Qwen模型的性能在虛假獎勵下幾乎無變化，甚至還會出現下降的趨勢。

這又是怎麼一回事呢？研究團隊只好又開始挖掘模型差異的根源。

為什麼虛假獎勵有效

通過分析Qwen2.5-Math-7B和OLMo2-7B的推理軌跡，團隊發現預訓練期間，模型學習到的特定推理策略差異是關鍵。

Qwen2.5-Math-7B頻繁生成Python代碼輔助思考過程 （占所有回答的 65.0%），儘管無法執行，但這種代碼推理行為在一定程度上，與答案準確率高度正相關。

但該模式在其他模型中並未有所發現，例如Llama、Qwen2.5-1.5B以及OLMo2-7B完全不生成代碼，無法從此推理策略中獲益。

OLMo2-7B-SFT和Qwen2.5-7B雖然也頻繁嘗試使用代碼推理，但該策略反而會降低模型性能。

而基於虛假獎勵的RLVR可以有效增強代碼推理頻率，如Qwen2.5-Math-7B在進行RLVR訓練後，代碼推理頻率在最初15步內，迅速從65%提升至約90%。

此外，通過分析隨機獎勵也能提升性能的特殊情況，研究人員還發現一個有趣的結論：GRPO的裁剪偏差可能會誘導隨機獎勵生成有益的訓練信號，增加代碼推理行為，從而實現性能提升。

One More Thing

本項目是由多位華人學者共同完成的，他們目前都在華盛頓大學的NLP小組讀博。

而當論文作者Stella Li在X上發帖介紹自己的論文時，我們注意到評論區有這樣一位網友的留言，他指出在模型改進中，也許「結果不重要，推理過程才重要」

Stella Li的回復也提出了另外一種可能，也許錯誤推理+正確答案或者正確推理+錯誤答案，可能也會幫助OLMo2-7B-SFT實現類似Qwen在虛假獎勵下的性能增益。

另外，作者也溫馨提示，現有的以Qwen為中心的RLVR研究可能需要在非Qwen模型上做進一步驗證，不要只盯著單一模型做漂亮數值提升的工作，因為那可能意義並不大。

項目鏈接：https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f
代碼鏈接：https://github.com/ruixin31/Rethink_RLVR
論文鏈接：https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

參考鏈接：
[1]https://x.com/StellaLisy/status/1927392717593526780
[2]https://x.com/huybery/status/1927434422934028358
[3]https://x.com/RulinShao/status/1927442751462707524

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

科技

小米汽車賣爆，雷軍的成功真的只是因為會營銷嗎？

小米YU7有多火爆，連雷軍都被嚇到了，他在採訪中看著手機屏幕愣了很久，發出一句「天哪！」3分鐘大定突破20萬台，1小時大定突破289000台，18小時鎖單量突破24萬台。雷軍說：可能我們大家一起見證....

06月29日 1206

第五屆海河國際消費季啟幕，開啟「購在中國津品消費」新熱潮

6月28日，第五屆海河國際消費季啟動活動在武清區V1汽車世界舉辦。本屆消費季活動以「購在中國津品消費」為主題，作為商務部「購在中國」天津站的重要活動內容，由市商務局聯合市文旅局、市體育局、市人社局共同主辦，活動將持續至9月底。

06月29日 5192

網購「3C認證」貼紙可助充電寶過安檢？平台緊急下架違規帖子

封面新聞記者宋瀟實習生姚媛媛6月26日，民航局發布緊急通知，自6月28日起禁止旅客攜帶沒有3C標識、3C標識不清晰、被召回型號或批次的充電寶乘坐境內航班。然而，6月27日，有網友爆料稱，二手交易平台上有商家公然提供3C認證刻字服務，毫不掩飾以「3C標誌認證，3C刻字，充電寶刻字」「充電寶打鐳射標，3C認證」等為題，宣...

06月29日 5428

《創業有得聊》講述79歲「創業青年」的低空經濟突圍戰

今晚7:30，湖南衛視《創業有得聊》第十期播出。本期聚焦低空經濟藍海，對話中國工程機械龍頭山河智能創始人、中國大眾飛行器的引領者山河星航創始人、79歲仍翱翔藍天的傳奇創業者——何清華。

06月29日 1453

超百萬充電寶召迴風波背後，無底線價格戰該剎車了

超‌百萬個充電寶突陷安全旋渦，召回、管控、認證質疑接踵而至。‌多家企業密集發布大批量召回通告，民航局緊急收緊航空攜帶新規，多個知名品牌更被發現3C認證存疑。一時間，消費者手中充電寶成了「燙手山芋」——「還能用嗎？」「如何查安全？」「召回咋處

06月29日 1659

離開中國的鈴木，現在還在海外推出新車？

鈴木原廠在 2024 年 11 月初時正式發布品牌首款純電產品 e Vitara，亦為純電概念車 eVX 的量產版，動力規格上擁有前驅與四驅設定、電池容量有著 49kWh 和 61kWh 規格，新車將會是印度制的身份來銷售，並將在夏季於歐洲、印度和日本等市場上

06月29日 3856

攜充電寶乘機新規發布，深圳機場可提供7天暫存

6月28日起，深圳機場開始執行民航局緊急通知的要求，禁止旅客攜帶沒有3C標識、3C標識不清晰、被召回型號或批次的充電寶乘坐境內航班。新規施行首日，深圳機場多措並舉，在嚴格落實局方要求的同時，儘可能為旅客現場處置不能攜帶的充電寶提供便利，同時增派人員，確保現場運行平穩有序。在深圳機場航站樓內，從出發層入口到...

06月29日 3205

讓機器人觸覺達人手800倍，上海交大教授正加速機器人「就業上崗」速度

「機器人的功能再炫酷，最終還是得能『用』。」上海交通大學船舶海洋與建築工程學院長聘副教授馬道林，一直致力於解決具身智能發展的難點——觸覺，這正是機器人能「用」的基礎。馬道林關於這一研究的論文在全球頂級學術會議——國際機器人與自動化大會（ICRA）上獲最佳論文獎，這是4000多篇參會論文中的唯一。而他去年5月...

06月29日 1677

葉紹全：在馬來西亞的跨境電商企業我們誰都不怕，就怕中國過來的

鳳凰網財經訊 6月28-29日，「2025中國企業出海高峰論壇」在深圳舉行，本次論壇由鳳凰網主辦，雪花超高端系列品牌-醴首席贊助合作，中國企業出海全球化理事會聯合主辦，以「為開放的世界」為主題，旨在....

06月29日 9683

特斯拉：已在中國大陸地區開放超2100座超級充電站

【環球網科技綜合報道】6月29日消息，特斯拉日前宣布，其全球超級充電樁已突破7萬根。截至目前，中國大陸地區已建設開放超2100座特斯拉超級充電站，逾11600根特斯拉超級充電樁，配合超2500根目的地充電樁。特斯拉充電網路的布局也已經100%覆蓋了中國大陸的所有省會城市及直轄市。特斯拉此前曾宣布，中國市場首批V4超級充電...

06月29日 1143