Qwen3训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏小模型

2025年05月14日15:42:07 科技 1508

克雷西发自凹非寺
量子位 | 公众号 QbitAI

Qwen3技术报告新鲜出炉，8款模型背后的关键技术被揭晓！

采用了双模式架构，一个模型同时支持推理和非推理任务，根据需要自动切换。
训练和微调过程采取分段式策略，逐步构建模型能力。
采取了“大带小”的模式，从大号模型中蒸馏数据训练小号模型。

有已经读完报告的网友，还发现了其中的更多亮点。

比如这位Hugging Face研究员感叹，Qwen3在RL阶段的样本量，竟然不到4k。

思考/非思考，一个模型搞定

Qwen3系列包括6个密集模型，参数量分别为0.6B、1.7B、4B、8B、14B和32B；以及2个MoE模型，总参数量分别为30B和235B，激活参数量对应为3B和22B。

密集模型的架构与Qwen2.5相似，但移除了Qwen2中使用的QKV偏置，并在注意力机制中引入了QK-Norm，以确保Qwen3的稳定训练。

与Qwen2.5-MoE不同，Qwen3-MoE设计不包含共享专家，另外Qwen3采用了全批次负载均衡损失来促进专家专业化。

Qwen3的一个核心创新就是其双重工作模式，也就是思考模式和非思考模式的融合，两种模式分别对应了复杂推理任务和快速应答任务的需求。

为了灵活地在两种模式间切换，Qwen3引入了thinking budget（思考预算）的概念。

Thinking budget本质上是一个决定thinking mode下计算资源投入的参数，它的大小与输入问题的复杂程度成正相关。

当接收到输入后，模型会评估其复杂程度，动态分配thinking budget。

简单问题会被分配较少的thinking budget，使得模型倾向于快速给出答案；复杂问题则会分配较高的thinking budget，模型会投入更多算力深入思考后再给出答案。

Qwen3这样训练

预训练环节，Qwen3采用了三阶段策略，逐步构建和强化模型的语言理解和生成能力。

第一阶段的目的是让模型掌握语言和通用基本知识，这部分的训练在通用语料上进行，采用了4096个token的序列长度。

第二阶段侧重于增强模型的推理能力。此阶段采用了更高质量的语料，主要来自于STEM、编程、推理等领域。

通过在这些语料上的训练，模型的逻辑分析、因果推理等能力得到了显著提升。此阶段的序列长度仍为4096个token，但学习率衰减速度加快。

第三阶段则专注于长文本能力，使用了研究团队专门收集的高质量长文档语料，并将训练序列长度扩展到了32768个token。

通过在这些超长文本上的训练，模型学会了处理复杂的长距离依赖关系，掌握了跨段落、跨文档的信息整合技能。

后训练同样采用了分段式的方法，一共可以分为四个阶段。

第一阶段称为长思维链冷启动，目标是为模型在数学和编程领域的推理任务建立初始的解题能力。

Qwen团队构建了一个包含大量高质量数学和编程问题的数据集，并为每个问题标注了详细的解题步骤，然后使用这些标注数据对模型进行监督微调，使其掌握解题的关键技能和常见思路。

具体来说，他们通过Qwen2.5-72B对问题进行筛选，然后使用QwQ-32B模型自动生成初步的解题步骤，这当中，人类专家对这些自动生成的解题步骤进行核对和修正，确保其准确性和可读性。

这个阶段的训练样本数量和训练步数都被控制在一个较小的规模，目的是让模型掌握基本的解题能力，而不是过度专门化。

第二阶段则是推理强化学习，在第一阶段的基础上进一步引入了强化学习，以优化模型的解题策略。

他们从第一阶段的数据集中筛选出了3995个问题，这些问题需要覆盖一定领域、具备一定难度，但可被模型学习。

这一阶段当中，会通过GRPO对模型参数进行更新。

第三阶段思维模式融合，顾名思义，目的是将思考和非思考两种模式融合进同一个模型，这一过程使用了同时包含思考和非思考内容的SFT数据集。

对于思考类型的样本，Qwen团队沿用了前两个阶段的数据生成方法；对于非思考类型的样本，则是广泛收集了一些开放域对话数据，并针对性地生成了一些问候语、指令等样本。

此外，团队还设计了一种聊天模板，在输入侧用一些特殊标记来区分思考和非思考模式。

通过在这个混合数据集上进行继续预训练，并融入人类反馈，模型学会了根据输入信号灵活切换两种模式，形成了一个无缝集成的双模态系统。

最后一个阶段是通用强化学习，目的是进一步增强模型在多种场景下的能力和稳定性。

该阶段中，Qwen团队构建了一个覆盖广泛任务的强化学习环境，包括问答、写作、代码生成、数学推理等20多个种类的任务。每个任务都设计了独特的评分标准。

并且，这些特别针对指令遵循、格式遵循、偏好遵循等能力的提升。

除了这样的训练模式之外，Qwen3家族还采用了“大带小”的数据蒸馏模式。

蒸馏分为Off-policy蒸馏和On-policy蒸馏两个主要阶段。

类比人类学习的话，第一个阶段像是背书，第二个阶段则是刷题并自己根据答案订正。

在Off-policy蒸馏阶段，首先使用教师模型（MoE模型使用235B蒸馏30B，密集模型使用32B蒸馏其他）在大规模的数据集上生成大量高质量的输出。

然后，这些数据作为监督信号，对学生模型进行训练，使之尽可能地模仿教师模型的输出分布。

在这个阶段，教师模型使用的是思考和非思考模式的混合输出，这使得学生模型也能够同时学习到应对两种模式的能力。

在On-policy蒸馏阶段，研究团队采用了一种更加动态和交互式的学习方式。

这个阶段首先让学生模型在实际任务中自主生成一系列输出，然后将这些输出与教师模型在相同任务上的输出进行比对。

学生模型的优化目标是最小化其输出分布与教师模型输出分布之间的差异。

通过这种持续的自我生成和比对过程，学生模型可以在实践中不断修正和完善其知识体系，使其输出分布逐步逼近教师模型。

Qwen版DeepResearch上线

除了发布Qwen3的技术报告，Qwen Chat还全量上线了深度研究功能，此前该功能进行了分阶段测试。

按官方介绍，只要描述问题，然后回答模型给出的细化提问，等过一杯咖啡的时间，Qwen就能整理出一份研究报告。

官方案例中，Qwen研究了这样的一个问题：

医疗保健行业在过去三年中如何适应远程医疗和数字健康工具？必要时使用表格让表达更加清晰。

可以看到，在明确具体需求之后，Qwen规划了方案，然后分成子问题进行检索、总结，研究过程用时约8分半，最终生成了带有表格的报告，并自动导出pdf。

感兴趣的话不妨体验一下~

报告地址：
https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
Qwen Chat：
https://chat.qwen.ai

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

科技

圆通在上海成立无人机科技公司 - 天天要闻

圆通在上海成立无人机科技公司

天眼查App显示，近日，上海圆航无人机科技有限公司成立，法定代表人为李恒贵，注册资本100万人民币，经营范围包括智能无人飞行器销售、智能机器人的研发、智能物料搬运装备销售等。股东信息显示，该公司由圆通速递有限公司全资持股。...

06月17日 5367

微信将迎史诗级更新，网友：我80个G的聊天记录终于有救了 - 天天要闻

微信将迎史诗级更新，网友：我80个G的聊天记录终于有救了

近日有消息称，微信正在优化聊天记录备份的功能，支持U盘等多种存储设备。对此，微信方面回应称，正小范围测试聊天记录备份功能优化。

06月17日 1204

飞行汽车量产“提速” 多家企业公布新进展 - 天天要闻

飞行汽车量产“提速” 多家企业公布新进展

日前，广汽、长安、一汽、小鹏、沃飞长空等多家企业陆续公布在“飞行汽车”领域的新进展。有观点认为，飞行汽车正从实验室迈向市场商业化的起点，相比自动驾驶在复杂路况中的挣扎，飞行汽车在相对可控的低空环境中，反而可能率先实现从概念到现实应用的关键一跃。多企业公布新进展多家企业集体发力，无疑为飞行汽车的量产按...

06月17日 3444

iPhone上也能跑Qwen3了！阿里一口气开源32款MLX模型 - 天天要闻

iPhone上也能跑Qwen3了！阿里一口气开源32款MLX模型

“源神”千问，又一次闷声干大事！今天刷 Reddit 才发现：昨晚，阿里千问一口气开源了 32 款，适配苹果 MLX 架构的 Qwen3 模型。没错，32 款，就是这么量大实惠。

06月17日 1635

已有18款小米机型获澎湃OS年中升级系统/相机体验优化 - 天天要闻

已有18款小米机型获澎湃OS年中升级系统/相机体验优化

【CNMO科技消息】近日，CNMO注意到，根据第三方统计，目前已经有至少17款小米手机/平板等设备或推澎湃OS 2年中升级。据了解，目前已有15款机型进入全量推送或灰度转全量阶段，包括Xiaomi 15系列（含15/15 Pro/15 Ultra）、14系列（14/14 Pro/14 Ultra）、13系列（13/13 Pro/13 Ultra），以及MI

06月17日 3748

韶音获评全国科技创新百强企业：以开放式聆听创新破局 - 天天要闻

韶音获评全国科技创新百强企业：以开放式聆听创新破局

在经济高质量发展的进程中，科技创新向来被视为关键力量。这其中，企业发挥的创新主体作用显然不言而喻。

06月17日 1664

台州学院“智方同源”团队：以数智科技赋能传统药食同源 - 天天要闻

台州学院“智方同源”团队：以数智科技赋能传统药食同源

在台州学院创业学院的鼎力支持与浙江省生态学保护重点实验室的科研支撑下，台州学院“智方同源”学生团队应运而生。该团队聚焦于药食同源领域，创新性地将大数据分析与人工智能技术深度融入功能食品配方设计，首创传统食疗配方图神经分析技术、食品配方成分-功效网络模块互作评价方法和口感预测卷积神经网络分析技术，致力...

06月17日 1186

S11芯片＋5G加持！Apple Watch Ultra 3今年登场？ - 天天要闻

S11芯片＋5G加持！Apple Watch Ultra 3今年登场？

日前，分析师 Jeff Pu在一份关于苹果2025年的产品规划路线图里提到，除了新款 Apple Watch Series 11，今年苹果也将推出大家都十分关注的新款智能手表 Apple Watch Ultra 3。届时 Apple Watch Series 11以及 Apple Watch Ultra 3这两款新手将会和期待已久的 iPhone 17 系列

06月17日 1215

以伊冲突还在打，市场却已经翻篇了！ - 天天要闻

以伊冲突还在打，市场却已经翻篇了！

本周一的交易数据讲述了一个令人震惊的故事。就在以色列和伊朗两国持续相互攻击之际，黄金价格下跌，美债收益率上升，股市波动率暴跌。股票相对于长期债券的表现达到了特朗普就职日以来的最强水平。这些都是典型的"风险开启"环境信号。以色列攻击伊朗核设施长期以来被视为可能严重恶化全球风险环境的"终极事件"，然而，油价...

06月17日 3909

人民日报盛赞华为、C919以及DeepSeek - 天天要闻

人民日报盛赞华为、C919以及DeepSeek

【TechWeb】据今日《人民日报》报道，无论是中小型企业还是科技行业的领军巨头，都在不断的实践与探索中凝练出了一条共通的发展真理：持之以恒，沉得住气。面对外界的封锁与压力，华为公司逆境而上，推出了具有突破性的麒麟系列芯片，并自主研发了鸿蒙操作系统，这些新产品在全球市场上实现了重要突破。华为创始人任正非表...

06月17日 4972