奖励是假的，能让Qwen提升25%性能却是真的！

2025年05月29日18:53:07 科技 1432

鹭羽发自凹非寺
量子位 | 公众号 QbitAI

即使RLVR（可验证奖励强化学习）使用错误的奖励信号，Qwen性能也能得到显著提升？

甚至还和真实奖励相差无几。

自从RLVR被DeepSeek-R1带火，RL推理研究层出不穷，走进了蜜月期。

这不，来自华盛顿大学的一群博士生来火上浇油了——

使用Qwen模型（尤其是数学版本），对虚假奖励进行RLVR，仍然可以将MATH-500的绝对准确率显著提升约25%。

团队实验发现：

RLVR通过激活预训练中的推理能力来提升性能，但不考虑奖励信号的正确性。

这彻底颠覆了既往大家对RLVR的认知，原来那些年在虚假奖励上踩过的坑，还真能实现弯道超车？

X上的网友们纷纷表示，强烈建议每位RLVR研究员都来读一读，尤其是那些围绕Qwen模型精心构造奖励函数的研究员们，该瑟瑟发抖了……

Qwen自家的研究员Binyuan Hui也在评论区现身：

也许是预训练数据混合以某种方式意外导致了一些有用的行为，又一次侧面印证了代码推理的重要性。

具体啥情况？下面我们娓娓道来。

虚假奖励带来显著的RLVR增益

此前已有研究证明，RLVR在提升语言模型推理能力上非常有效，核心思想是利用可自动验证的奖励信号优化。

普遍研究都默认优化效果依赖奖励的正确性，但研究团队反直觉地认为其中必有蹊跷——虚假奖励或许也能“变废为宝”？

于是说干就干，开始大胆假设，小心求证。

从实验出发

为测试RLVR提升数学推理能力所需的最低监督下限，团队设计了一系列逐步简化的奖励函数替代标准真实奖励：

真实奖励：使用真实标签对可验证正确的回答给予奖励，将其作为奖励监督质量的上限。
多数投票奖励：在微调前利用模型对训练集进行伪标注，即对每个提示采样64个响应并选取多数答案，再基于这些（可能错误的）标签进行奖励。
格式奖励：进一步弱化奖励信号，奖励所有包含至少一个非空\boxed {}表达式的响应，完全忽略回答的数学正确性。
随机奖励：在奖励过程中不提供任何指导，直接给定一个固定概率超参数随机分配奖励，其中1的概率为，0为，主实验中设置。
错误奖励：故意提供错误的监督，只奖励错误答案，即先用多数投票法标注所有训练数据，选择错误标签的子集进行训练，并给予对应的响应奖励。

基于GRPO方法微调Qwen2.5-Math模型，再使用不同奖励函数进行RLVR训练。

实验结果表明，与未调优的基线模型相比，所有奖励函数（即使是设计上存在问题的函数），均能在所有基准测试的前50步内显著提升数学推理性能。

值得注意的是，虚假奖励带来的性能提升，与基于真实标签的RLVR提升幅度，相差只有几个百分点。

例如，在MATH500基准上，使用错误标签奖励进行训练可提升24.6%，而基于真实答案的RLVR提升幅度只有28.8%，即使是提供纯噪音的随机奖励，也仍能带来 21.4%的性能提升。

因此团队证明，即使是完全错误的奖励或随机奖励，也能在Qwen2.5-Math模型中激发性能提升。

但在进一步的研究中，他们发现这种奇怪的增益只有利于Qwen2.5系列模型，其余非 Qwen模型的性能在虚假奖励下几乎无变化，甚至还会出现下降的趋势。

这又是怎么一回事呢？研究团队只好又开始挖掘模型差异的根源。

为什么虚假奖励有效

通过分析Qwen2.5-Math-7B和OLMo2-7B的推理轨迹，团队发现预训练期间，模型学习到的特定推理策略差异是关键。

Qwen2.5-Math-7B频繁生成Python代码辅助思考过程 （占所有回答的 65.0%），尽管无法执行，但这种代码推理行为在一定程度上，与答案准确率高度正相关。

但该模式在其他模型中并未有所发现，例如Llama、Qwen2.5-1.5B以及OLMo2-7B完全不生成代码，无法从此推理策略中获益。

OLMo2-7B-SFT和Qwen2.5-7B虽然也频繁尝试使用代码推理，但该策略反而会降低模型性能。

而基于虚假奖励的RLVR可以有效增强代码推理频率，如Qwen2.5-Math-7B在进行RLVR训练后，代码推理频率在最初15步内，迅速从65%提升至约90%。

此外，通过分析随机奖励也能提升性能的特殊情况，研究人员还发现一个有趣的结论：GRPO的裁剪偏差可能会诱导随机奖励生成有益的训练信号，增加代码推理行为，从而实现性能提升。

One More Thing

本项目是由多位华人学者共同完成的，他们目前都在华盛顿大学的NLP小组读博。

而当论文作者Stella Li在X上发帖介绍自己的论文时，我们注意到评论区有这样一位网友的留言，他指出在模型改进中，也许“结果不重要，推理过程才重要”

Stella Li的回复也提出了另外一种可能，也许错误推理+正确答案或者正确推理+错误答案，可能也会帮助OLMo2-7B-SFT实现类似Qwen在虚假奖励下的性能增益。

另外，作者也温馨提示，现有的以Qwen为中心的RLVR研究可能需要在非Qwen模型上做进一步验证，不要只盯着单一模型做漂亮数值提升的工作，因为那可能意义并不大。

项目链接：https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f
代码链接：https://github.com/ruixin31/Rethink_RLVR
论文链接：https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

参考链接：
[1]https://x.com/StellaLisy/status/1927392717593526780
[2]https://x.com/huybery/status/1927434422934028358
[3]https://x.com/RulinShao/status/1927442751462707524

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

科技

奇瑞暗讽小米“订单大跃进”：抱歉，风云A9L俩月订单也才5万台！

3分钟订单20万，一小时订单接近29万。这是小米YU7发出来的成绩单，有意思的是，雷军在小米YU7发布一天之后，宣布不再发布YU7的订单数据，因何原因不得而知。著名行业观察家....

06月29日 7424

小米汽车卖爆，雷军的成功真的只是因为会营销吗？

小米YU7有多火爆，连雷军都被吓到了，他在采访中看着手机屏幕愣了很久，发出一句“天哪！”3分钟大定突破20万台，1小时大定突破289000台，18小时锁单量突破24万台。雷军说：可能我们大家一起见证....

06月29日 1206

第五届海河国际消费季启幕，开启 “购在中国津品消费”新热潮

6月28日，第五届海河国际消费季启动活动在武清区V1汽车世界举办。本届消费季活动以“购在中国津品消费”为主题，作为商务部“购在中国”天津站的重要活动内容，由市商务局联合市文旅局、市体育局、市人社局共同主办，活动将持续至9月底。

06月29日 5192

网购“3C认证”贴纸可助充电宝过安检？平台紧急下架违规帖子

封面新闻记者宋潇实习生姚媛媛6月26日，民航局发布紧急通知，自6月28日起禁止旅客携带没有3C标识、3C标识不清晰、被召回型号或批次的充电宝乘坐境内航班。然而，6月27日，有网友爆料称，二手交易平台上有商家公然提供3C认证刻字服务，毫不掩饰以“3C标志认证，3C刻字，充电宝刻字”“充电宝打镭射标，3C认证”等为题，宣...

06月29日 5428

《创业有得聊》讲述79岁“创业青年”的低空经济突围战

今晚7:30，湖南卫视《创业有得聊》第十期播出。本期聚焦低空经济蓝海，对话中国工程机械龙头山河智能创始人、中国大众飞行器的引领者山河星航创始人、79岁仍翱翔蓝天的传奇创业者——何清华。

06月29日 1453

超百万充电宝召回风波背后，无底线价格战该刹车了

超‌百万个充电宝突陷安全旋涡，召回、管控、认证质疑接踵而至。‌多家企业密集发布大批量召回通告，民航局紧急收紧航空携带新规，多个知名品牌更被发现3C认证存疑。一时间，消费者手中充电宝成了“烫手山芋”——“还能用吗？”“如何查安全？”“召回咋处

06月29日 1659

离开中国的铃木，现在还在海外推出新车？

铃木原厂在 2024 年 11 月初时正式发布品牌首款纯电产品 e Vitara，亦为纯电概念车 eVX 的量产版，动力规格上拥有前驱与四驱设定、电池容量有着 49kWh 和 61kWh 规格，新车将会是印度制的身份来销售，并将在夏季于欧洲、印度和日本等市场上

06月29日 3856

携充电宝乘机新规发布，深圳机场可提供7天暂存

6月28日起，深圳机场开始执行民航局紧急通知的要求，禁止旅客携带没有3C标识、3C标识不清晰、被召回型号或批次的充电宝乘坐境内航班。新规施行首日，深圳机场多措并举，在严格落实局方要求的同时，尽可能为旅客现场处置不能携带的充电宝提供便利，同时增派人员，确保现场运行平稳有序。在深圳机场航站楼内，从出发层入口到...

06月29日 3205

让机器人触觉达人手800倍，上海交大教授正加速机器人“就业上岗”速度

“机器人的功能再炫酷，最终还是得能‘用’。”上海交通大学船舶海洋与建筑工程学院长聘副教授马道林，一直致力于解决具身智能发展的难点——触觉，这正是机器人能“用”的基础。马道林关于这一研究的论文在全球顶级学术会议——国际机器人与自动化大会（ICRA）上获最佳论文奖，这是4000多篇参会论文中的唯一。而他去年5月...

06月29日 1677