哈喽,大家好,老寰这篇评论,主要来分析清华团队NeurIPS颠覆性研究:强化学习没让AI变聪明?
2024年12月10日至15日,加拿大温哥华举办的NeurIPS大会上,一幕罕见场景引发关注。
清华大学团队演讲结束后,来自欧美等地的顶尖学者排成长队提问。他们带来的论文不仅拿下大会最佳论文亚军,更颠覆了大模型领域的普遍认知。
颠覆性发现:挑战行业默认“真理”
业界一直默认,带可验证奖励的强化学习能让大模型实现AlphaGo式的能力飞跃,探索全新推理策略。
但清华宋士吉、黄高团队通过实验给出否定答案。他们以Pass@K为核心指标,在数学、代码、AIME24等任务中展开测试,该指标K=1衡量一次回答正确率,K增大则反映模型真实知识空间。
实验反转:大K值下原始模型反超
数据呈现戏剧性结果。2.57B模型在AIME24任务中,强化学习模型Pass@1从0.05升至0.15,提升200%,符合行业认知。
但当K≥256尤其是1024时,原始模型准确率达0.77,远超强化学习模型的0.60,能力边界上更是高出28个百分点。
真相揭秘:仅重排概率而非拓展能力
团队解释,强化学习并未让模型学会新知识,只是“重排概率分布”,把已有正确路径推到前列。
这意味着它仅优化“表达”而非“认知本体”。不同于围棋明确的奖励空间,大语言模型推理奖励稀疏、反馈滞后,难以实现质变,这一结论获四位审稿人满分认可。
行业启示:未来方向指向基座模型与新技术
恰逢2024年底至2025年初,OpenAI o1、DeepSeek-R1等强化学习模型密集发布,DeepSeek-R1更是取得AIME24 79.8% Pass@1的成绩,让行业热情高涨。
清华研究提醒业界,这些亮眼表现或只是知识重排。真正突破需深耕基座模型,而非依赖强化学习“表面功夫”。
论文指出,蒸馏技术更有望实现模型进化,未来还需在抽象空间构建、过程级奖励引导、多智能体探索等方向发力,这也为全球AI研究指明了新路径。