清华团队NeurIPS颠覆性研究:强化学习没让AI变聪明?

哈喽,大家好,老寰这篇评论,主要来分析清华团队NeurIPS颠覆性研究:强化学习没让AI变聪明?

2024年12月10日至15日,加拿大温哥华举办的NeurIPS大会上,一幕罕见场景引发关注。

清华大学团队演讲结束后,来自欧美等地的顶尖学者排成长队提问。他们带来的论文不仅拿下大会最佳论文亚军,更颠覆了大模型领域的普遍认知。

颠覆性发现:挑战行业默认“真理”

业界一直默认,带可验证奖励的强化学习能让大模型实现AlphaGo式的能力飞跃,探索全新推理策略。

但清华宋士吉、黄高团队通过实验给出否定答案。他们以Pass@K为核心指标,在数学、代码、AIME24等任务中展开测试,该指标K=1衡量一次回答正确率,K增大则反映模型真实知识空间。

实验反转:大K值下原始模型反超

数据呈现戏剧性结果。2.57B模型在AIME24任务中,强化学习模型Pass@1从0.05升至0.15,提升200%,符合行业认知。

但当K≥256尤其是1024时,原始模型准确率达0.77,远超强化学习模型的0.60,能力边界上更是高出28个百分点。

真相揭秘:仅重排概率而非拓展能力

团队解释,强化学习并未让模型学会新知识,只是“重排概率分布”,把已有正确路径推到前列。

这意味着它仅优化“表达”而非“认知本体”。不同于围棋明确的奖励空间,大语言模型推理奖励稀疏、反馈滞后,难以实现质变,这一结论获四位审稿人满分认可。

行业启示:未来方向指向基座模型与新技术

恰逢2024年底至2025年初,OpenAI o1、DeepSeek-R1等强化学习模型密集发布,DeepSeek-R1更是取得AIME24 79.8% Pass@1的成绩,让行业热情高涨。

清华研究提醒业界,这些亮眼表现或只是知识重排。真正突破需深耕基座模型,而非依赖强化学习“表面功夫”。

论文指出,蒸馏技术更有望实现模型进化,未来还需在抽象空间构建、过程级奖励引导、多智能体探索等方向发力,这也为全球AI研究指明了新路径。