清华团队NeurIPS颠覆性研究：强化学习没让AI变聪明？

分类：科技

浏览数：1586

2025-12-23

哈喽，大家好，老寰这篇评论，主要来分析清华团队NeurIPS颠覆性研究：强化学习没让AI变聪明？

2024年12月10日至15日，加拿大温哥华举办的NeurIPS大会上，一幕罕见场景引发关注。

清华大学团队演讲结束后，来自欧美等地的顶尖学者排成长队提问。他们带来的论文不仅拿下大会最佳论文亚军，更颠覆了大模型领域的普遍认知。

颠覆性发现：挑战行业默认“真理”

业界一直默认，带可验证奖励的强化学习能让大模型实现AlphaGo式的能力飞跃，探索全新推理策略。

但清华宋士吉、黄高团队通过实验给出否定答案。他们以Pass@K为核心指标，在数学、代码、AIME24等任务中展开测试，该指标K=1衡量一次回答正确率，K增大则反映模型真实知识空间。

数据呈现戏剧性结果。2.57B模型在AIME24任务中，强化学习模型Pass@1从0.05升至0.15，提升200%，符合行业认知。

但当K≥256尤其是1024时，原始模型准确率达0.77，远超强化学习模型的0.60，能力边界上更是高出28个百分点。

团队解释，强化学习并未让模型学会新知识，只是“重排概率分布”，把已有正确路径推到前列。

这意味着它仅优化“表达”而非“认知本体”。不同于围棋明确的奖励空间，大语言模型推理奖励稀疏、反馈滞后，难以实现质变，这一结论获四位审稿人满分认可。

恰逢2024年底至2025年初，OpenAI o1、DeepSeek-R1等强化学习模型密集发布，DeepSeek-R1更是取得AIME24 79.8% Pass@1的成绩，让行业热情高涨。

清华研究提醒业界，这些亮眼表现或只是知识重排。真正突破需深耕基座模型，而非依赖强化学习“表面功夫”。

论文指出，蒸馏技术更有望实现模型进化，未来还需在抽象空间构建、过程级奖励引导、多智能体探索等方向发力，这也为全球AI研究指明了新路径。

科技分类资讯推荐