“强化学习教师”登场！7B模型击败671B DeepSeek-R1

2025年06月24日11:52:04 教育 1475

俗话说，“授人以鱼，不如授人以渔。”即：送人一条鱼，不如教他学会如何捕鱼。

如今，这句话背后的思想，也被应用在了强化学习（RL）中。

刚刚，由“Transformer八子”之一 Llion Jones 联合创立的 AI 初创公司 Sakana AI 提出了一种新的 RL 范式——“强化学习教师”（Reinforcement Learned Teacher，RLT) 。

据介绍，RLT 通过学习如何教学而非直接解决问题，来教会大语言模型（LLM）如何进行推理，有效解决了传统教师模型 RL 过程耗时长、成本高、应用领域窄等诸多难题。

图｜强化学习教师（RLT）通过训练教师模型从问答对中生成解释，来优化学生模型的理解能力。与其从头开始解决问题，教师的奖励应基于其解释的有效性，即这些解释如何帮助学生恢复正确的解决方案。

在这一过程中，RLT 像人类教师一样“学习如何教学”，并基于已知解决方案输出清晰的分步解释。教师模型不再因自行解决问题而获得奖励，而是因其解释对学生模型有多大帮助而获得奖励。这种反馈机制使得教师模型的训练与其“帮助学生”的实际目的相一致，提升了训练效果。

结果显示，在教授推理技能方面，7B 大小的教师模型的表现超过了规模大几个数量级的模型（如 671B DeepSeek-R1）。而且，这一结果不仅适用于规模相同的学生模型，也适用于规模远大于教师模型（如 32B）的学生模型。

相关研究论文以“Reinforcement Learning Teachers of Test Time Scaling”为题，已发表在预印本网站 arXiv 上。

强化学习新范式：学习“教学”

受人类教师工作方式的启发，正如一位优秀的人类教师无需重新发现数学定理就能解释它们一样，RLT 在输入提示中同时获得每个问题的题目和正确答案，它们的任务是通过有帮助的、分步解释来帮助学生模型从中学习。

这项研究的主要亮点在于：改变了训练教师模型的方式。RLT 被训练以最大化其解释的清晰度和指导性，类似于人类教师在课堂上评估学生理解程度的方式。具体来说，如果学生模型能够轻松理解教师模型对问题的解释所给出的正确解决方案，这表明教师模型教学效果好。

这一方法解决了传统“学习解决”框架中的两大问题。首先，这一新训练循环将教师模型训练与其实际目的（即通过蒸馏/冷启动机制帮助学生）相对齐，使其效果显著提升。其次，向 RLT 同时输入问题及其正确答案，使研究团队能够使用小而高效的教师模型，这些模型在没有输入的情况下无法独立解决问题。

相比于规模更大的教师模，如 DeepSeek-R1(671B)，7B RLT 模型在数学和科学领域的多个挑战性基准测试中表现更优。

值得一提的是，当使用 7B RLT 模型训练更大规模（如 32B）的学生模型时，也表现出了更好的结果。这表明，小型专业化教师模型能够将深度推理技能转移到规模大得多的学生模型中。

他们还发现，RLT 与传统 RL 方法相辅相成。当作为起点使用时，RLT 帮助学生模型达到了更高的性能水平。从成本角度来看，差异非常显著：使用 RLT 训练 32B 学生模型在单个计算节点上不到一天即可完成，而传统 RL 在相同硬件上则需要数月时间。

迈向更先进、更经济的推理模型

研究团队表示，RLT 重新定义了构建推理模型的方式。与从头开始训练模型解决问题不同，RLT 训练模型清晰地解释已知解决方案，这与经验丰富的人类教师相似。这种转变使得将 RL 应用于此前被认为超出语言模型直接处理能力的领域成为可能。

同时，RLT 可能大大降低先进模型训练的成本。无需在每个阶段都依赖庞大的系统，我们可以训练小型、专业化的教师模型，并利用它们高效地训练更大规模的模型。

展望未来，RLT 框架暗示着一个更令人着迷的构想：一个同时扮演教师和学生双重角色的模型。通过为自身生成解释，模型能够随着时间的推移，逐步学会如何更好地自我教学。

整理：学术君

少年心向党 ，共筑强军梦！军地青年典型走进西安高新第六小学第一分校，观摩少年军校教育成果展示，开展国...