7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

2025年06月25日14:50:14 教育 8828

不圆 发自 凹非寺

量子位 | 公众号 qbitai

thinking模式当道,教师模型也该学会“启发式”教学了——

由transformer作者之一llion jones创立的明星ai公司sakana ai,带着他们的新方法来了!

这个方法要求教师模型像优秀的人类教师一样,根据已知解决方案输出清晰的逐步解释,而不再是从头开始自己解决。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队 - 天天要闻

用sanaka ai的新方法训练出的7b小模型,在传授推理技能方面,比671b的deepseek-r1还要有效。

训练比自己大3倍的学生模型也不在话下。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队 - 天天要闻

对此有网友评价:我们刚刚才意识到,最好的老师不是房间里最聪明的人。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队 - 天天要闻

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队 - 天天要闻

像人类老师一样

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队 - 天天要闻

许多高级推理模型,如deepseek-r1,遵循两阶段的训练过程:首先训练教师模型,然后使用其输出训练学生模型,最终产品为学生模型。

传统上,这些教师模型通过昂贵的强化学习(rl)进行训练,模型必须从头学习解决复杂问题,只有在得到正确答案时才会获得奖励:

先让教师模型得到问题的答案,再把答案仔细过滤并重新用作学生模型的训练数据。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队 - 天天要闻

这种方法缓慢、昂贵且往往过于偏狭,过于依赖教师模型自身能力。因为教师模型拿到的仅仅只有问题,它们需要自己思考给出结果。

而sanaka ai的新方法不再通过解决问题来教学,而是让新的强化学习教师(rlts)“学会教学”

要求它们根据已知解决方案输出清晰的逐步解释,就像优秀的人类教师一样。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队 - 天天要闻

就像一位好教师不需要重新发现数学定理来解释它们一样,rlts在输入提示中既获得问题的内容,也获得每个问题的正确答案

它们的任务是提供有助于学生模型学习的、逐步的详细解释,从而连接这些知识点。如果学生模型能够根据教师对问题的解释轻松理解正确解决方案,那么这就是rlts做得好的信号。

也就是说,对rlts的奖励不再是能自己解决问题,而是能解释对学生模型有多有帮助。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队 - 天天要闻

sanaka ai的新方法解决了传统方法中的两个问题:

首先,新方法的训练循环使教师训练与其真正目的(为学生进行蒸馏/冷启动提供帮助)保持一致,从而大大提高了效率。

其次,将问题和正确答案同时输入rlt,能帮助原本无法独立解决问题的小型模型学会教学。

这些特性使sanaka ai的新方法能更快、更经济、更有效地训练出具有强大推理能力的学生模型。

小型教师模型的“不合理但有效”

为了验证新方法的有效性,sanaka ai用新方法训练了一个7b的rlt小模型作为教学模型与此前最先进的方法进行比较。

竞争方法使用规模更大的模型,如deepseek-r1和qwq,并结合gpt-4o-mini等工具在用于训练学生模型之前清理其输出,以获得额外帮助。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队 - 天天要闻

结果发现:使用相同的qwen2.5学生模型、相同的问题以及相同的评估设置,rlt以远少的计算量取得了比deepseek-r1和qwq更好的效果。

把学生模型的规模扩大,结果同样令人惊讶:7b的rlt成功训练了一个32b的学生模型,其规模是自己四倍以上,并取得了优异的成果。

sanaka ai的新方法还可以和传统rl方法相辅相成:

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队 - 天天要闻

上图展示了在2024年美国邀请数学考试(aime)、竞赛数学和研究生级问答基准(gpqa)上的平均性能。

新方法和传统rl方法联合使用,使rlt获得了改进性能,并补充了传统rl方法在问题解决方面的应用。

用作起点时,rlt帮助学生模型达到了更高的性能水平。

从成本角度来看,差异非常显著:使用rlt训练32b的学生模型仅需单个计算节点一天时间,而传统rl方法在相同硬件上需要数月。

一项定性分析揭示了rlts提供的解释与deepseek-r1的蒸馏轨迹之间存在一些差异:

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队 - 天天要闻

deepseek-r1的输出常常依赖于外部工具,例如计算器、网络上的讨论以及玩梗,包括一些具有误导性的内容。

相比之下,rlt提供的解释避免了令人困惑的语言,并增加了额外的逻辑步骤来帮助学生。

这些直观的改进能够转化为学生语言模型的改进学习,像人类专家一样简洁且清晰。

参考链接:

https://x.com/sakanaailabs/status/1936965841188425776

博客:https://sakana.ai/rlt

论文:https://arxiv.org/abs/2506.08388代码:github.com/sakanaai/rlt

教育分类资讯推荐

高考601分的脑瘫男孩:抛开励志滤镜,我只是一个普通人 - 天天要闻

高考601分的脑瘫男孩:抛开励志滤镜,我只是一个普通人

高考总分601分,运动障碍型脑瘫,似乎毫不相干的两种状态叠加到了一个人身上。男孩是内蒙古包头市第九十五中学的学生韩泽宇,其语文135.5分,数学94分,外语139分。总分包含5分少数民族政策性加分。 接受九派新闻采访时,韩泽宇并不避讳谈论身体上的疾病。在他看来,自己是幸运的,尽管下肢运动功能受限,但上肢运动功能和...
36岁清华毕业生李龙再战高考:花了约100天备考,查分预计无缘清华北大医学院 - 天天要闻

36岁清华毕业生李龙再战高考:花了约100天备考,查分预计无缘清华北大医学院

6月25日,36岁再考清华的清华毕业生李龙告诉红星新闻,他今年参加高考的第一目标是清华、北大的医学院,6月24日查分时看到成绩后并不太满意,但在黑龙江全省排名还可以,四川大学的华西医学院也是他的选择之一。李龙认为被第一目标录取的可能性很小,被其他学校录取的机会要大一些。 ▲李龙发布视频分享查分经过去年,李龙...
31省份高考分数线来了! - 天天要闻

31省份高考分数线来了!

截至目前31省份高考分数线已公布北京普通本科录取控制分数线:430分特殊类型招生录取控制分数线:519分上海本科录取控制分数线:402分特殊类型招生控制分数线:505分(上海市高考成绩满分为660分)天津普通本科录取控制分数线:476分特殊类型资格考生最低录取控制线:562分重庆普通类历史类:本科批438分,特殊类型资...
“校政企”三向奔赴,毕业直达offer不迷路! - 天天要闻

“校政企”三向奔赴,毕业直达offer不迷路!

毕业季来临,面对高校毕业生就业新形势,如何精准匹配岗位需求、提升人才留镇率?金山张堰镇探索出政府搭台、校企唱戏的协同路径。镇社区事务受理服务中心(以下简称“镇受理中心”)联合上海中侨职业技术大学及本地优质企业,通过职业赋能前移、资源深度整合与长效跟踪服务,构建起促进高校英才扎根发展的全链条服务体系。...
周鸿祎谈清华读博:做了60多页开题报告被老师批,要大改 - 天天要闻

周鸿祎谈清华读博:做了60多页开题报告被老师批,要大改

【TechWeb】6月25日消息,近日高考成绩陆续放榜,高考填报志愿学校又成为家长学生关注的焦点。360创始人周鸿祎发文称,前几天我分享了自己本科和硕士的就读经历,向大家推荐了我的母校西安交通大学。没想到引起不少网友的兴趣,大家都让我再讲讲清华读博的感受。周鸿祎提到:“重返校园,被比我年轻的老师喊‘红衣大叔’;...