“强化学习教师”登场!7B模型击败671B DeepSeek-R1

2025年06月24日11:52:04 教育 1475

“强化学习教师”登场!7B模型击败671B DeepSeek-R1 - 天天要闻


俗话说,“授人以鱼,不如授人以渔。”即:送人一条鱼,不如教他学会如何捕鱼。


如今,这句话背后的思想,也被应用在了强化学习(RL)中


刚刚,由“Transformer八子”之一 Llion Jones 联合创立的 AI 初创公司 Sakana AI 提出了一种新的 RL 范式——“强化学习教师”(Reinforcement Learned Teacher,RLT) 。


据介绍,RLT 通过学习如何教学而非直接解决问题,来教会大语言模型(LLM)如何进行推理,有效解决了传统教师模型 RL 过程耗时长、成本高、应用领域窄等诸多难题。


“强化学习教师”登场!7B模型击败671B DeepSeek-R1 - 天天要闻

图|强化学习教师(RLT)通过训练教师模型从问答对中生成解释,来优化学生模型的理解能力。与其从头开始解决问题,教师的奖励应基于其解释的有效性,即这些解释如何帮助学生恢复正确的解决方案。


在这一过程中,RLT 像人类教师一样“学习如何教学”,并基于已知解决方案输出清晰的分步解释。教师模型不再因自行解决问题而获得奖励,而是因其解释对学生模型有多大帮助而获得奖励。这种反馈机制使得教师模型的训练与其“帮助学生”的实际目的相一致,提升了训练效果。


“强化学习教师”登场!7B模型击败671B DeepSeek-R1 - 天天要闻


结果显示,在教授推理技能方面,7B 大小的教师模型的表现超过了规模大几个数量级的模型(如 671B DeepSeek-R1)。而且,这一结果不仅适用于规模相同的学生模型,也适用于规模远大于教师模型(如 32B)的学生模型。


相关研究论文以“Reinforcement Learning Teachers of Test Time Scaling”为题,已发表在预印本网站 arXiv 上。


“强化学习教师”登场!7B模型击败671B DeepSeek-R1 - 天天要闻


强化学习新范式:学习“教学”


受人类教师工作方式的启发,正如一位优秀的人类教师无需重新发现数学定理就能解释它们一样,RLT 在输入提示中同时获得每个问题的题目和正确答案,它们的任务是通过有帮助的、分步解释来帮助学生模型从中学习


“强化学习教师”登场!7B模型击败671B DeepSeek-R1 - 天天要闻


这项研究的主要亮点在于:改变了训练教师模型的方式。RLT 被训练以最大化其解释的清晰度和指导性,类似于人类教师在课堂上评估学生理解程度的方式。具体来说,如果学生模型能够轻松理解教师模型对问题的解释所给出的正确解决方案,这表明教师模型教学效果好。


这一方法解决了传统“学习解决”框架中的两大问题。首先,这一新训练循环将教师模型训练与其实际目的(即通过蒸馏/冷启动机制帮助学生)相对齐,使其效果显著提升。其次,向 RLT 同时输入问题及其正确答案,使研究团队能够使用小而高效的教师模型,这些模型在没有输入的情况下无法独立解决问题。


相比于规模更大的教师模,如 DeepSeek-R1(671B),7B RLT 模型在数学和科学领域的多个挑战性基准测试中表现更优。


“强化学习教师”登场!7B模型击败671B DeepSeek-R1 - 天天要闻


值得一提的是,当使用 7B RLT 模型训练更大规模(如 32B)的学生模型时,也表现出了更好的结果。这表明,小型专业化教师模型能够将深度推理技能转移到规模大得多的学生模型中


“强化学习教师”登场!7B模型击败671B DeepSeek-R1 - 天天要闻


他们还发现,RLT 与传统 RL 方法相辅相成。当作为起点使用时,RLT 帮助学生模型达到了更高的性能水平。从成本角度来看,差异非常显著:使用 RLT 训练 32B 学生模型在单个计算节点上不到一天即可完成,而传统 RL 在相同硬件上则需要数月时间


“强化学习教师”登场!7B模型击败671B DeepSeek-R1 - 天天要闻



迈向更先进、更经济的推理模型


研究团队表示,RLT 重新定义了构建推理模型的方式。与从头开始训练模型解决问题不同,RLT 训练模型清晰地解释已知解决方案,这与经验丰富的人类教师相似。这种转变使得将 RL 应用于此前被认为超出语言模型直接处理能力的领域成为可能。


同时,RLT 可能大大降低先进模型训练的成本。无需在每个阶段都依赖庞大的系统,我们可以训练小型、专业化的教师模型,并利用它们高效地训练更大规模的模型。


展望未来,RLT 框架暗示着一个更令人着迷的构想:一个同时扮演教师和学生双重角色的模型。通过为自身生成解释,模型能够随着时间的推移,逐步学会如何更好地自我教学。


整理:学术君

教育分类资讯推荐

玉胜社区:护航中考显温情 聚力点亮学子梦 - 天天要闻

玉胜社区:护航中考显温情 聚力点亮学子梦

为保障2025年中考期间考生及家长的出行安全与便利,近日,泡崖街道玉胜社区联合甘井子区交警大队、郭明义爱心团队大连燕子志愿服务队,在弘文中学中考考点周边开展护航中考志愿服务活动,以实际行动为考生营造安全、有序、温馨的考试环境。中考期间,志愿服务队与交警支队提前部署,交警支队干警重点针对考点周边路段实施交...
上海6.2万份高考成绩单全速打印 今日开始投递 - 天天要闻

上海6.2万份高考成绩单全速打印 今日开始投递

23日,上海市6.2万份高考成绩单制作打印完毕,于今天(24日)开始陆续投递。 23日下午,由上海教育考试院提供的高考成绩单数据,被传送至上海邮政制作处理中心。经数据分类处理,2台高速打印....
广州越秀区举行公办小学升初中电脑派位,今天13时可查结果 - 天天要闻

广州越秀区举行公办小学升初中电脑派位,今天13时可查结果

6月24日上午,2025年越秀区公办小学升公办初中电脑派位现场会在越秀区教育局一楼礼堂举行。广州市越秀区相关职能部门代表,区辖部分中小学校、毕业生家长代表,以及新闻媒体共同出席。今年,越秀区小学毕业生有12888人,与去年小学毕业生基本持平。经越秀区教育局严格审核,其中有1165名学生符合政策批准提前录取,这些学生...
呼和浩特:“后高考经济”催火市场 - 天天要闻

呼和浩特:“后高考经济”催火市场

随着2025年高考落幕,呼和浩特“后高考经济”持续升温,电子产品、考驾照、毕业旅行、技能培训等迎来消费高峰。电子产品消费:升学刚需引发“科技装备热”高考结束后,呼和浩特各大数码产品卖场内客流量显著增加。
2025年魏都区学区划分出炉 - 天天要闻

2025年魏都区学区划分出炉

2025年魏都区义务教育招生入学工作实施方案按照中共魏都区委办公室、魏都区人民政府办公室印发《关于进一步做好义务教育招生入学工作的实施意见》和许昌市教育局《关于做好2025年义务教育阳光招生工作的通知》要求,结合我区实际,制定本实施方案。