Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型

2025年05月14日15:42:07 科技 1508

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓!

  • 采用了双模式架构,一个模型同时支持推理和非推理任务,根据需要自动切换。
  • 训练和微调过程采取分段式策略,逐步构建模型能力。
  • 采取了“大带小”的模式,从大号模型中蒸馏数据训练小号模型。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

有已经读完报告的网友,还发现了其中的更多亮点。

比如这位Hugging Face研究员感叹,Qwen3在RL阶段的样本量,竟然不到4k。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

思考/非思考,一个模型搞定

Qwen3系列包括6个密集模型,参数量分别为0.6B、1.7B、4B、8B、14B和32B;以及2个MoE模型,总参数量分别为30B和235B,激活参数量对应为3B和22B。

密集模型的架构与Qwen2.5相似,但移除了Qwen2中使用的QKV偏置,并在注意力机制中引入了QK-Norm,以确保Qwen3的稳定训练。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

与Qwen2.5-MoE不同,Qwen3-MoE设计不包含共享专家,另外Qwen3采用了全批次负载均衡损失来促进专家专业化。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

Qwen3的一个核心创新就是其双重工作模式,也就是思考模式和非思考模式的融合,两种模式分别对应了复杂推理任务和快速应答任务的需求。

为了灵活地在两种模式间切换,Qwen3引入了thinking budget(思考预算)的概念。

Thinking budget本质上是一个决定thinking mode下计算资源投入的参数,它的大小与输入问题的复杂程度成正相关。

当接收到输入后,模型会评估其复杂程度,动态分配thinking budget。

简单问题会被分配较少的thinking budget,使得模型倾向于快速给出答案;复杂问题则会分配较高的thinking budget,模型会投入更多算力深入思考后再给出答案。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

Qwen3这样训练

预训练环节,Qwen3采用了三阶段策略,逐步构建和强化模型的语言理解和生成能力。

第一阶段的目的是让模型掌握语言和通用基本知识,这部分的训练在通用语料上进行,采用了4096个token的序列长度。

第二阶段侧重于增强模型的推理能力。此阶段采用了更高质量的语料,主要来自于STEM、编程、推理等领域。

通过在这些语料上的训练,模型的逻辑分析、因果推理等能力得到了显著提升。此阶段的序列长度仍为4096个token,但学习率衰减速度加快。

第三阶段则专注于长文本能力,使用了研究团队专门收集的高质量长文档语料,并将训练序列长度扩展到了32768个token。

通过在这些超长文本上的训练,模型学会了处理复杂的长距离依赖关系,掌握了跨段落、跨文档的信息整合技能。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

后训练同样采用了分段式的方法,一共可以分为四个阶段。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

第一阶段称为长思维链冷启动,目标是为模型在数学和编程领域的推理任务建立初始的解题能力。

Qwen团队构建了一个包含大量高质量数学和编程问题的数据集,并为每个问题标注了详细的解题步骤,然后使用这些标注数据对模型进行监督微调,使其掌握解题的关键技能和常见思路。

具体来说,他们通过Qwen2.5-72B对问题进行筛选,然后使用QwQ-32B模型自动生成初步的解题步骤,这当中,人类专家对这些自动生成的解题步骤进行核对和修正,确保其准确性和可读性。

这个阶段的训练样本数量和训练步数都被控制在一个较小的规模,目的是让模型掌握基本的解题能力,而不是过度专门化。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

第二阶段则是推理强化学习,在第一阶段的基础上进一步引入了强化学习,以优化模型的解题策略。

他们从第一阶段的数据集中筛选出了3995个问题,这些问题需要覆盖一定领域、具备一定难度,但可被模型学习。

这一阶段当中,会通过GRPO对模型参数进行更新。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

第三阶段思维模式融合,顾名思义,目的是将思考和非思考两种模式融合进同一个模型,这一过程使用了同时包含思考和非思考内容的SFT数据集。

对于思考类型的样本,Qwen团队沿用了前两个阶段的数据生成方法;对于非思考类型的样本,则是广泛收集了一些开放域对话数据,并针对性地生成了一些问候语、指令等样本。

此外,团队还设计了一种聊天模板,在输入侧用一些特殊标记来区分思考和非思考模式。

通过在这个混合数据集上进行继续预训练,并融入人类反馈,模型学会了根据输入信号灵活切换两种模式,形成了一个无缝集成的双模态系统。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

最后一个阶段是通用强化学习,目的是进一步增强模型在多种场景下的能力和稳定性。

该阶段中,Qwen团队构建了一个覆盖广泛任务的强化学习环境,包括问答、写作、代码生成、数学推理等20多个种类的任务。每个任务都设计了独特的评分标准。

并且,这些特别针对指令遵循、格式遵循、偏好遵循等能力的提升。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

除了这样的训练模式之外,Qwen3家族还采用了“大带小”的数据蒸馏模式

蒸馏分为Off-policy蒸馏和On-policy蒸馏两个主要阶段。

类比人类学习的话,第一个阶段像是背书,第二个阶段则是刷题并自己根据答案订正。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

在Off-policy蒸馏阶段,首先使用教师模型(MoE模型使用235B蒸馏30B,密集模型使用32B蒸馏其他)在大规模的数据集上生成大量高质量的输出。

然后,这些数据作为监督信号,对学生模型进行训练,使之尽可能地模仿教师模型的输出分布。

在这个阶段,教师模型使用的是思考和非思考模式的混合输出,这使得学生模型也能够同时学习到应对两种模式的能力。

在On-policy蒸馏阶段,研究团队采用了一种更加动态和交互式的学习方式。

这个阶段首先让学生模型在实际任务中自主生成一系列输出,然后将这些输出与教师模型在相同任务上的输出进行比对。

学生模型的优化目标是最小化其输出分布与教师模型输出分布之间的差异。

通过这种持续的自我生成和比对过程,学生模型可以在实践中不断修正和完善其知识体系,使其输出分布逐步逼近教师模型。

Qwen版DeepResearch上线

除了发布Qwen3的技术报告,Qwen Chat还全量上线了深度研究功能,此前该功能进行了分阶段测试。

按官方介绍,只要描述问题,然后回答模型给出的细化提问,等过一杯咖啡的时间,Qwen就能整理出一份研究报告。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

官方案例中,Qwen研究了这样的一个问题:

医疗保健行业在过去三年中如何适应远程医疗和数字健康工具?必要时使用表格让表达更加清晰。

可以看到,在明确具体需求之后,Qwen规划了方案,然后分成子问题进行检索、总结,研究过程用时约8分半,最终生成了带有表格的报告,并自动导出pdf。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

感兴趣的话不妨体验一下~

报告地址:
https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
Qwen Chat:
https://chat.qwen.ai

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

科技分类资讯推荐

正帆科技与华茂能联达成战略合作,携手共拓智能用电和清洁能源未来 - 天天要闻

正帆科技与华茂能联达成战略合作,携手共拓智能用电和清洁能源未来

在国家双碳战略目标引领下,2025年5月9日上海,上海正帆科技股份有限公司(正帆科技)与深圳华茂能联科技有限公司(华茂能联)于正帆科技总部正式签署战略合作协议。双方将立足于集成电路、平板显示、半导体照明、太阳能光伏、生物制药以及光纤制造等工业应用场景的降本降碳、绿色能源规划、智能用电管理和面向电力市场的源...
盲人办卡被营业厅要求“眨眼” 遭遇“强制刷脸”怎么办? - 天天要闻

盲人办卡被营业厅要求“眨眼” 遭遇“强制刷脸”怎么办?

这两天“眼球缺失盲人办卡被要求眨眼刷脸”引发广泛关注无法睁眼怎么眨眼验证?一起来看到底咋回事“办卡要刷脸,可我没法眨眼”今年5月初,80周岁的管先生在保姆的陪同下,来到江苏省扬州市江都区的某运营商营业厅,准备办理一张手机卡。管先生原本以为,凭借身份证就能顺利办卡,可没想到,在人脸识别环节却卡了壳。“...
京东外卖系统崩溃?客服:午间时段可能人力不足,会显示无人接单 - 天天要闻

京东外卖系统崩溃?客服:午间时段可能人力不足,会显示无人接单

红星资本局5月14日消息,今日午间,多名网友发帖称订购的京东外卖没有骑手接单配送、出现订单延迟等情况,引发热议。资料配图 图据视觉中国不少网友在社交平台留言称:“服务器又崩了”“骑手都快送到了订单里面还显示无骑手接单”。截图自微博对此,京东客服表示,骑手接单在午间时段有可能出现人力不足的情况,有时候会出...
中国数据链,接入中东! - 天天要闻

中国数据链,接入中东!

(如文章引起大家共鸣,请“点赞”以及“转发”,以支持继续创作,谢谢大家!)如今,中国制造的科技产品、基建项目和各类合作在海湾地区随处可见。这些正在慢慢改变人们对美国与海湾国家紧密关系的看法。美国总统特朗普这周按计划访问沙特阿拉伯、卡塔尔和阿
如何计算MOS驱动电路的参数? - 天天要闻

如何计算MOS驱动电路的参数?

以这个能够控制开关速度的驱动电路为例如图,D1是驱动电阻Rg2上并联一个快恢复二极管,使关断时间减小同时减小关断损耗,Rg1可以限制关断电流,R1为mos管栅源极的下拉电阻,给mos管栅极积累的电荷提供泄放回路。
产品开发活动的重叠策略 - 天天要闻

产品开发活动的重叠策略

全球化的竞争、科技的进步及满足客户需求的趋势下,产品的生命周期越来越短。企业必须不间断地进行新产品开发,增加企业的价值、创造利润。
化肥厂智能化管理新范式:新锐科创人员定位系统解决方案 - 天天要闻

化肥厂智能化管理新范式:新锐科创人员定位系统解决方案

化肥厂作为化工产业的核心生产单元,内部作业流程复杂,危险化学品储存区、高温高压反应车间等风险区域密布,大型设备林立,加之员工数量众多且作业区域分散,对人员安全管理与生产调度效率提出了极高要求。传统人员管理模式在实时定位、精准监控等方面存在显
智能充电盒“小安”上岗,精准锁定电动自行车潜在隐患 - 天天要闻

智能充电盒“小安”上岗,精准锁定电动自行车潜在隐患

近期,在北京市西城区西长安街街道的平房区,一款名为“小安”的电动自行车专用智能充电盒亮相街头,这款充电盒配有联网型充电检测设备,能够采集充电数据,分析电池、充电器存在的安全隐患。截至5月13日,“小安”已累计发现9起可疑电动自行车电池安全隐患,这些隐患均被及时排查、消除。去年12月,西长安街街道平安办委托...