Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型

2025年05月14日15:42:07 科技 1508

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓!

  • 采用了双模式架构,一个模型同时支持推理和非推理任务,根据需要自动切换。
  • 训练和微调过程采取分段式策略,逐步构建模型能力。
  • 采取了“大带小”的模式,从大号模型中蒸馏数据训练小号模型。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

有已经读完报告的网友,还发现了其中的更多亮点。

比如这位Hugging Face研究员感叹,Qwen3在RL阶段的样本量,竟然不到4k。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

思考/非思考,一个模型搞定

Qwen3系列包括6个密集模型,参数量分别为0.6B、1.7B、4B、8B、14B和32B;以及2个MoE模型,总参数量分别为30B和235B,激活参数量对应为3B和22B。

密集模型的架构与Qwen2.5相似,但移除了Qwen2中使用的QKV偏置,并在注意力机制中引入了QK-Norm,以确保Qwen3的稳定训练。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

与Qwen2.5-MoE不同,Qwen3-MoE设计不包含共享专家,另外Qwen3采用了全批次负载均衡损失来促进专家专业化。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

Qwen3的一个核心创新就是其双重工作模式,也就是思考模式和非思考模式的融合,两种模式分别对应了复杂推理任务和快速应答任务的需求。

为了灵活地在两种模式间切换,Qwen3引入了thinking budget(思考预算)的概念。

Thinking budget本质上是一个决定thinking mode下计算资源投入的参数,它的大小与输入问题的复杂程度成正相关。

当接收到输入后,模型会评估其复杂程度,动态分配thinking budget。

简单问题会被分配较少的thinking budget,使得模型倾向于快速给出答案;复杂问题则会分配较高的thinking budget,模型会投入更多算力深入思考后再给出答案。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

Qwen3这样训练

预训练环节,Qwen3采用了三阶段策略,逐步构建和强化模型的语言理解和生成能力。

第一阶段的目的是让模型掌握语言和通用基本知识,这部分的训练在通用语料上进行,采用了4096个token的序列长度。

第二阶段侧重于增强模型的推理能力。此阶段采用了更高质量的语料,主要来自于STEM、编程、推理等领域。

通过在这些语料上的训练,模型的逻辑分析、因果推理等能力得到了显著提升。此阶段的序列长度仍为4096个token,但学习率衰减速度加快。

第三阶段则专注于长文本能力,使用了研究团队专门收集的高质量长文档语料,并将训练序列长度扩展到了32768个token。

通过在这些超长文本上的训练,模型学会了处理复杂的长距离依赖关系,掌握了跨段落、跨文档的信息整合技能。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

后训练同样采用了分段式的方法,一共可以分为四个阶段。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

第一阶段称为长思维链冷启动,目标是为模型在数学和编程领域的推理任务建立初始的解题能力。

Qwen团队构建了一个包含大量高质量数学和编程问题的数据集,并为每个问题标注了详细的解题步骤,然后使用这些标注数据对模型进行监督微调,使其掌握解题的关键技能和常见思路。

具体来说,他们通过Qwen2.5-72B对问题进行筛选,然后使用QwQ-32B模型自动生成初步的解题步骤,这当中,人类专家对这些自动生成的解题步骤进行核对和修正,确保其准确性和可读性。

这个阶段的训练样本数量和训练步数都被控制在一个较小的规模,目的是让模型掌握基本的解题能力,而不是过度专门化。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

第二阶段则是推理强化学习,在第一阶段的基础上进一步引入了强化学习,以优化模型的解题策略。

他们从第一阶段的数据集中筛选出了3995个问题,这些问题需要覆盖一定领域、具备一定难度,但可被模型学习。

这一阶段当中,会通过GRPO对模型参数进行更新。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

第三阶段思维模式融合,顾名思义,目的是将思考和非思考两种模式融合进同一个模型,这一过程使用了同时包含思考和非思考内容的SFT数据集。

对于思考类型的样本,Qwen团队沿用了前两个阶段的数据生成方法;对于非思考类型的样本,则是广泛收集了一些开放域对话数据,并针对性地生成了一些问候语、指令等样本。

此外,团队还设计了一种聊天模板,在输入侧用一些特殊标记来区分思考和非思考模式。

通过在这个混合数据集上进行继续预训练,并融入人类反馈,模型学会了根据输入信号灵活切换两种模式,形成了一个无缝集成的双模态系统。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

最后一个阶段是通用强化学习,目的是进一步增强模型在多种场景下的能力和稳定性。

该阶段中,Qwen团队构建了一个覆盖广泛任务的强化学习环境,包括问答、写作、代码生成、数学推理等20多个种类的任务。每个任务都设计了独特的评分标准。

并且,这些特别针对指令遵循、格式遵循、偏好遵循等能力的提升。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

除了这样的训练模式之外,Qwen3家族还采用了“大带小”的数据蒸馏模式

蒸馏分为Off-policy蒸馏和On-policy蒸馏两个主要阶段。

类比人类学习的话,第一个阶段像是背书,第二个阶段则是刷题并自己根据答案订正。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

在Off-policy蒸馏阶段,首先使用教师模型(MoE模型使用235B蒸馏30B,密集模型使用32B蒸馏其他)在大规模的数据集上生成大量高质量的输出。

然后,这些数据作为监督信号,对学生模型进行训练,使之尽可能地模仿教师模型的输出分布。

在这个阶段,教师模型使用的是思考和非思考模式的混合输出,这使得学生模型也能够同时学习到应对两种模式的能力。

在On-policy蒸馏阶段,研究团队采用了一种更加动态和交互式的学习方式。

这个阶段首先让学生模型在实际任务中自主生成一系列输出,然后将这些输出与教师模型在相同任务上的输出进行比对。

学生模型的优化目标是最小化其输出分布与教师模型输出分布之间的差异。

通过这种持续的自我生成和比对过程,学生模型可以在实践中不断修正和完善其知识体系,使其输出分布逐步逼近教师模型。

Qwen版DeepResearch上线

除了发布Qwen3的技术报告,Qwen Chat还全量上线了深度研究功能,此前该功能进行了分阶段测试。

按官方介绍,只要描述问题,然后回答模型给出的细化提问,等过一杯咖啡的时间,Qwen就能整理出一份研究报告。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

官方案例中,Qwen研究了这样的一个问题:

医疗保健行业在过去三年中如何适应远程医疗和数字健康工具?必要时使用表格让表达更加清晰。

可以看到,在明确具体需求之后,Qwen规划了方案,然后分成子问题进行检索、总结,研究过程用时约8分半,最终生成了带有表格的报告,并自动导出pdf。

Qwen3训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏小模型 - 天天要闻

感兴趣的话不妨体验一下~

报告地址:
https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
Qwen Chat:
https://chat.qwen.ai

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

科技分类资讯推荐

台州学院“智方同源”团队:以数智科技赋能传统药食同源 - 天天要闻

台州学院“智方同源”团队:以数智科技赋能传统药食同源

在台州学院创业学院的鼎力支持与浙江省生态学保护重点实验室的科研支撑下,台州学院“智方同源”学生团队应运而生。该团队聚焦于药食同源领域,创新性地将大数据分析与人工智能技术深度融入功能食品配方设计,首创传统食疗配方图神经分析技术、食品配方成分-功效网络模块互作评价方法和口感预测卷积神经网络分析技术,致力...
S11芯片+5G加持!Apple Watch Ultra 3今年登场? - 天天要闻

S11芯片+5G加持!Apple Watch Ultra 3今年登场?

日前,分析师 Jeff Pu在一份关于苹果2025年的产品规划路线图里提到,除了新款 Apple Watch Series 11,今年苹果也将推出大家都十分关注的新款智能手表 Apple Watch Ultra 3。届时 Apple Watch Series 11以及 Apple Watch Ultra 3这两款新手将会和期待已久的 iPhone 17 系列
以伊冲突还在打,市场却已经翻篇了! - 天天要闻

以伊冲突还在打,市场却已经翻篇了!

本周一的交易数据讲述了一个令人震惊的故事。就在以色列和伊朗两国持续相互攻击之际,黄金价格下跌,美债收益率上升,股市波动率暴跌。股票相对于长期债券的表现达到了特朗普就职日以来的最强水平。这些都是典型的"风险开启"环境信号。以色列攻击伊朗核设施长期以来被视为可能严重恶化全球风险环境的"终极事件",然而,油价...
人民日报盛赞华为、C919以及DeepSeek - 天天要闻

人民日报盛赞华为、C919以及DeepSeek

【TechWeb】据今日《人民日报》报道,无论是中小型企业还是科技行业的领军巨头,都在不断的实践与探索中凝练出了一条共通的发展真理:持之以恒,沉得住气。面对外界的封锁与压力,华为公司逆境而上,推出了具有突破性的麒麟系列芯片,并自主研发了鸿蒙操作系统,这些新产品在全球市场上实现了重要突破。华为创始人任正非表...
Polyphony Digital于6月7日发布小米和Gran Turismo的合作 - 天天要闻

Polyphony Digital于6月7日发布小米和Gran Turismo的合作

总部在中国北京的小米,2021年宣布加入智能电动汽车行业,2024年发售自己的第一个量产电车SU7。旗舰车型SU7 Ultra,拥有1548匹马力惊人的性能。并且以挑战纽北北圈记录为目标开发的SU7 Ultra原型车,以6分46秒874打破了4门车在纽北的圈速记录,在世界上受到车迷的广泛关注。小米在接下来,将会与Gran Turismo 一起制作Visi..
网易云VIP突然宣布免费,还不领就来不及了 - 天天要闻

网易云VIP突然宣布免费,还不领就来不及了

听劝的风,再次吹到了网易云音乐身上。一直以来,网易云和QQ音乐上的平板端适配,都是平板用户们重点关注的话题。此前网易云在安卓平板上,已经完成了比较成熟的大屏适配。可在iPad端上,机哥从2024年等到今年年中,还是等不到它的出现。直到这两天
数据中心告别“烫手芯片” 曙光数创推出全生命周期液冷解决方案 - 天天要闻

数据中心告别“烫手芯片” 曙光数创推出全生命周期液冷解决方案

IT时报记者 郝俊慧面对越来越“热”的算力芯片,曙光数创正想让它快点“冷”下来。在刚刚结束的2025中国智算中心全栈技术大会上,曙光数创发布“新服务、新技术、新架构”三大新品,旨在通过一体化、全生命周期的服务新范式,解决当前液冷行业面临的诸多痛点。“液冷即服务,这个概念在行业里早就有需求了。”曙光数创副总...