獎勵是假的，能讓Qwen提升25%性能卻是真的！

2025年05月29日18:53:07 科技 1432

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI

即使RLVR（可驗證獎勵強化學習）使用錯誤的獎勵信號，Qwen性能也能得到顯著提升？

甚至還和真實獎勵相差無幾。

自從RLVR被DeepSeek-R1帶火，RL推理研究層出不窮，走進了蜜月期。

這不，來自華盛頓大學的一群博士生來火上澆油了——

使用Qwen模型（尤其是數學版本），對虛假獎勵進行RLVR，仍然可以將MATH-500的絕對準確率顯著提升約25%。

團隊實驗發現：

RLVR通過激活預訓練中的推理能力來提升性能，但不考慮獎勵信號的正確性。

這徹底顛覆了既往大家對RLVR的認知，原來那些年在虛假獎勵上踩過的坑，還真能實現彎道超車？

X上的網友們紛紛表示，強烈建議每位RLVR研究員都來讀一讀，尤其是那些圍繞Qwen模型精心構造獎勵函數的研究員們，該瑟瑟發抖了……

Qwen自家的研究員Binyuan Hui也在評論區現身：

也許是預訓練數據混合以某種方式意外導致了一些有用的行為，又一次側面印證了代碼推理的重要性。

具體啥情況？下面我們娓娓道來。

虛假獎勵帶來顯著的RLVR增益

此前已有研究證明，RLVR在提升語言模型推理能力上非常有效，核心思想是利用可自動驗證的獎勵信號優化。

普遍研究都默認優化效果依賴獎勵的正確性，但研究團隊反直覺地認為其中必有蹊蹺——虛假獎勵或許也能“變廢為寶”？

於是說干就干，開始大膽假設，小心求證。

從實驗出發

為測試RLVR提升數學推理能力所需的最低監督下限，團隊設計了一系列逐步簡化的獎勵函數替代標準真實獎勵：

真實獎勵：使用真實標籤對可驗證正確的回答給予獎勵，將其作為獎勵監督質量的上限。
多數投票獎勵：在微調前利用模型對訓練集進行偽標註，即對每個提示採樣64個響應並選取多數答案，再基於這些（可能錯誤的）標籤進行獎勵。
格式獎勵：進一步弱化獎勵信號，獎勵所有包含至少一個非空\boxed {}表達式的響應，完全忽略回答的數學正確性。
隨機獎勵：在獎勵過程中不提供任何指導，直接給定一個固定概率超參數隨機分配獎勵，其中1的概率為，0為，主實驗中設置。
錯誤獎勵：故意提供錯誤的監督，只獎勵錯誤答案，即先用多數投票法標註所有訓練數據，選擇錯誤標籤的子集進行訓練，並給予對應的響應獎勵。

基於GRPO方法微調Qwen2.5-Math模型，再使用不同獎勵函數進行RLVR訓練。

實驗結果表明，與未調優的基線模型相比，所有獎勵函數（即使是設計上存在問題的函數），均能在所有基準測試的前50步內顯著提升數學推理性能。

值得注意的是，虛假獎勵帶來的性能提升，與基於真實標籤的RLVR提升幅度，相差只有幾個百分點。

例如，在MATH500基準上，使用錯誤標籤獎勵進行訓練可提升24.6%，而基於真實答案的RLVR提升幅度只有28.8%，即使是提供純噪音的隨機獎勵，也仍能帶來 21.4%的性能提升。

因此團隊證明，即使是完全錯誤的獎勵或隨機獎勵，也能在Qwen2.5-Math模型中激發性能提升。

但在進一步的研究中，他們發現這種奇怪的增益只有利於Qwen2.5系列模型，其餘非 Qwen模型的性能在虛假獎勵下幾乎無變化，甚至還會出現下降的趨勢。

這又是怎麼一回事呢？研究團隊只好又開始挖掘模型差異的根源。

為什麼虛假獎勵有效

通過分析Qwen2.5-Math-7B和OLMo2-7B的推理軌跡，團隊發現預訓練期間，模型學習到的特定推理策略差異是關鍵。

Qwen2.5-Math-7B頻繁生成Python代碼輔助思考過程 （占所有回答的 65.0%），儘管無法執行，但這種代碼推理行為在一定程度上，與答案準確率高度正相關。

但該模式在其他模型中並未有所發現，例如Llama、Qwen2.5-1.5B以及OLMo2-7B完全不生成代碼，無法從此推理策略中獲益。

OLMo2-7B-SFT和Qwen2.5-7B雖然也頻繁嘗試使用代碼推理，但該策略反而會降低模型性能。

而基於虛假獎勵的RLVR可以有效增強代碼推理頻率，如Qwen2.5-Math-7B在進行RLVR訓練後，代碼推理頻率在最初15步內，迅速從65%提升至約90%。

此外，通過分析隨機獎勵也能提升性能的特殊情況，研究人員還發現一個有趣的結論：GRPO的裁剪偏差可能會誘導隨機獎勵生成有益的訓練信號，增加代碼推理行為，從而實現性能提升。

One More Thing

本項目是由多位華人學者共同完成的，他們目前都在華盛頓大學的NLP小組讀博。

而當論文作者Stella Li在X上發帖介紹自己的論文時，我們注意到評論區有這樣一位網友的留言，他指出在模型改進中，也許「結果不重要，推理過程才重要」

Stella Li的回復也提出了另外一種可能，也許錯誤推理+正確答案或者正確推理+錯誤答案，可能也會幫助OLMo2-7B-SFT實現類似Qwen在虛假獎勵下的性能增益。

另外，作者也溫馨提示，現有的以Qwen為中心的RLVR研究可能需要在非Qwen模型上做進一步驗證，不要只盯着單一模型做漂亮數值提升的工作，因為那可能意義並不大。

項目鏈接：https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f
代碼鏈接：https://github.com/ruixin31/Rethink_RLVR
論文鏈接：https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

參考鏈接：
[1]https://x.com/StellaLisy/status/1927392717593526780
[2]https://x.com/huybery/status/1927434422934028358
[3]https://x.com/RulinShao/status/1927442751462707524

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

科技

英偉達新高下，AI服務器業“賣身”求生與算力“價格崩塌”

【環球網財經綜合報道】本周英偉達股價刷新歷史新高，黃仁勛稱推理需更多算力，然而AI服務器業內卻暗流涌動。東方IC近期，AI服務器業內變動頻繁。6月20日晚，傑美特公告籌劃現金購買思騰合力控制權，可能構成重大資產重組，交易完成後將拓展算力相關業務能力。5月19日晚，慧博雲通披露預案，擬收購寶德計算機67.91%股份並募...

06月29日 6792

榮耀 400 系列手機全球累計激活量突破 100 萬台

IT之家 6 月 29 日消息，據博主 @旺仔百事通分享，榮耀 400 系列全球累計激活量突破 100 萬台，打破近三年榮耀手機激活量最快破百萬記錄。據IT之家此前報道，今年 5 月，榮耀 400 / 400 Pro 手機發布，新機搭載 2 億超清寫真人像主攝，分別採用驍龍 7 Gen4 處理器和驍龍 8 Gen3 處理器、同時全系配備 7200mAh 第

06月29日 9082

下一代DNS發展論壇 | 馮登國：構建自主可控的RPKI及安全路由機制

2025年6月26日，以“網絡根基中國貢獻”為主題的第四屆下一代DNS發展論壇在京舉行。本屆論壇，由中國互聯網協會、中國通信標準化協會指導，互聯網域名系統國家地方聯合工程研究中心（ZDNS）與互聯網域名管理技術國家工程實驗室聯合主辦。主論壇上，馮登國教授圍繞《RPKI：認識與思考》作主題報告。 RPKI：確保路由通告真實...

06月29日 7984

多平台緊急下架！這種貼紙千萬別亂貼，涉嫌違法

連日來，充電寶安全事件引發廣泛關注，近期多個頭部品牌充電寶廠家因電芯存在安全風險對多批次產品實施召回，國家市場監管總局撤銷或暫停了多個充電寶及電池芯廠家3C認證。

06月29日 1578

民航局“3C禁令”引發充電寶行業格局重塑

【環球網財經綜合報道】日前，民航局發布“3C禁令”，禁止攜帶無3C標識及被召回的充電寶上境內航班，收緊了對充電寶的航空安全管控，國內多地機場已明確將按此規定實施。這一禁令“擊中”充電寶主要使用場景，影響重大。民航局官網截圖我國自2023年8月1日起對充電寶實施3C認證管理，2024年8月1日起，未獲認證證書和標註認證...

06月29日 3683

馬斯克官宣，腦機接口重大進展，未來有望控制人形機器人！

每經編輯：畢陸名當地時間6月27日，馬斯克旗下腦機接口公司Neuralink發布了一段長達一小時的視頻，展示了他們最新的研究成果及產品發展方向。圖片來源：視覺中國在視頻中，Neuralink公布了未來幾年的詳細發展規劃：在2025年第四季度，Neuralink計劃在言語皮層進行植入，目標是直接解碼無聲的“意圖言語”。到2026年，植入芯...

06月29日 4927

線上與線下價格的戰死局如何破？

這年頭品牌死法千奇百怪，最冤的是被自家電商團隊"割喉"！山東啤酒代理商老劉去年就栽了個大跟頭！自家倉庫堆着3000箱泰山原漿，抖音直播間卻賣得比他的進貨價還便宜。光是去年就被線上渠道撬走七十多萬生意。廠家兩手一攤，說電商是外包團隊乾的。職業

06月29日 1516

翻車了，特朗普T1手機“中國製造”，國產山寨機水平，旗艦機價格

本月早些時候，美國總統特朗普旗下特朗普集團宣布，推出特朗普T1智能手機，以“美國製造”作為主打噱頭，售價3600元左右人民幣。但最近有外媒發現，這款手機其實是中國一家代工廠貼牌生產，山寨機品質賣到旗艦機太讓人尷尬了。

06月29日 1891

萬元手機跑腿配送丟失引糾紛，律師：消費者可要求平台先行賠付

近日，北京的師先生向新京報記者反映，今年5月底，他通過某外賣平台“跑腿一對一直送”服務，配送一部價值12400元的手機，此後卻遭遇手機丟失、配送員失聯、平台僅願賠付180元的維權難題。新京報記者查詢公開資料發現，類似的配送糾紛並非個例。在黑貓投訴平台上，同類的投訴多達數十起。京都律師事務所常莎律師表示，若配...

06月29日 2319

未按規定及時披露重大交易事項，龍辰科技被監管出具警示函

極目新聞記者劉閃因未按規定及時披露重大交易事項，近日，湖北證監局對湖北龍辰科技股份有限公司、林美雲、林娜採取出具警示函措施。經查，2022年6月23日，湖北龍辰科技股份有限公司子公司安徽龍辰電子科技有限公司購買了一條BOPP電容薄膜生產線,交易價格為852萬歐元。公司未及時履行董事會審議程序，未及時進行信息披露，...

06月29日 1378