Qwen3訓練秘籍公開：思考/非思考融進一個模型，大模型蒸餾小模型

2025年05月14日15:42:07 科技 1508

克雷西發自凹非寺
量子位 | 公眾號 QbitAI

Qwen3技術報告新鮮出爐，8款模型背後的關鍵技術被揭曉！

採用了雙模式架構，一個模型同時支持推理和非推理任務，根據需要自動切換。
訓練和微調過程採取分段式策略，逐步構建模型能力。
採取了「大帶小」的模式，從大號模型中蒸餾數據訓練小號模型。

有已經讀完報告的網友，還發現了其中的更多亮點。

比如這位Hugging Face研究員感嘆，Qwen3在RL階段的樣本量，竟然不到4k。

思考/非思考，一個模型搞定

Qwen3系列包括6個密集模型，參數量分別為0.6B、1.7B、4B、8B、14B和32B；以及2個MoE模型，總參數量分別為30B和235B，激活參數量對應為3B和22B。

密集模型的架構與Qwen2.5相似，但移除了Qwen2中使用的QKV偏置，並在注意力機制中引入了QK-Norm，以確保Qwen3的穩定訓練。

與Qwen2.5-MoE不同，Qwen3-MoE設計不包含共享專家，另外Qwen3採用了全批次負載均衡損失來促進專家專業化。

Qwen3的一個核心創新就是其雙重工作模式，也就是思考模式和非思考模式的融合，兩種模式分別對應了複雜推理任務和快速應答任務的需求。

為了靈活地在兩種模式間切換，Qwen3引入了thinking budget（思考預算）的概念。

Thinking budget本質上是一個決定thinking mode下計算資源投入的參數，它的大小與輸入問題的複雜程度成正相關。

當接收到輸入後，模型會評估其複雜程度，動態分配thinking budget。

簡單問題會被分配較少的thinking budget，使得模型傾向於快速給出答案；複雜問題則會分配較高的thinking budget，模型會投入更多算力深入思考後再給出答案。

Qwen3這樣訓練

預訓練環節，Qwen3採用了三階段策略，逐步構建和強化模型的語言理解和生成能力。

第一階段的目的是讓模型掌握語言和通用基本知識，這部分的訓練在通用語料上進行，採用了4096個token的序列長度。

第二階段側重於增強模型的推理能力。此階段採用了更高質量的語料，主要來自於STEM、編程、推理等領域。

通過在這些語料上的訓練，模型的邏輯分析、因果推理等能力得到了顯著提升。此階段的序列長度仍為4096個token，但學習率衰減速度加快。

第三階段則專註於長文本能力，使用了研究團隊專門收集的高質量長文檔語料，並將訓練序列長度擴展到了32768個token。

通過在這些超長文本上的訓練，模型學會了處理複雜的長距離依賴關係，掌握了跨段落、跨文檔的信息整合技能。

後訓練同樣採用了分段式的方法，一共可以分為四個階段。

第一階段稱為長思維鏈冷啟動，目標是為模型在數學和編程領域的推理任務建立初始的解題能力。

Qwen團隊構建了一個包含大量高質量數學和編程問題的數據集，並為每個問題標註了詳細的解題步驟，然後使用這些標註數據對模型進行監督微調，使其掌握解題的關鍵技能和常見思路。

具體來說，他們通過Qwen2.5-72B對問題進行篩選，然後使用QwQ-32B模型自動生成初步的解題步驟，這當中，人類專家對這些自動生成的解題步驟進行核對和修正，確保其準確性和可讀性。

這個階段的訓練樣本數量和訓練步數都被控制在一個較小的規模，目的是讓模型掌握基本的解題能力，而不是過度專門化。

第二階段則是推理強化學習，在第一階段的基礎上進一步引入了強化學習，以優化模型的解題策略。

他們從第一階段的數據集中篩選出了3995個問題，這些問題需要覆蓋一定領域、具備一定難度，但可被模型學習。

這一階段當中，會通過GRPO對模型參數進行更新。

第三階段思維模式融合，顧名思義，目的是將思考和非思考兩種模式融合進同一個模型，這一過程使用了同時包含思考和非思考內容的SFT數據集。

對於思考類型的樣本，Qwen團隊沿用了前兩個階段的數據生成方法；對於非思考類型的樣本，則是廣泛收集了一些開放域對話數據，並針對性地生成了一些問候語、指令等樣本。

此外，團隊還設計了一種聊天模板，在輸入側用一些特殊標記來區分思考和非思考模式。

通過在這個混合數據集上進行繼續預訓練，並融入人類反饋，模型學會了根據輸入信號靈活切換兩種模式，形成了一個無縫集成的雙模態系統。

最後一個階段是通用強化學習，目的是進一步增強模型在多種場景下的能力和穩定性。

該階段中，Qwen團隊構建了一個覆蓋廣泛任務的強化學習環境，包括問答、寫作、代碼生成、數學推理等20多個種類的任務。每個任務都設計了獨特的評分標準。

並且，這些特別針對指令遵循、格式遵循、偏好遵循等能力的提升。

除了這樣的訓練模式之外，Qwen3家族還採用了「大帶小」的數據蒸餾模式。

蒸餾分為Off-policy蒸餾和On-policy蒸餾兩個主要階段。

類比人類學習的話，第一個階段像是背書，第二個階段則是刷題並自己根據答案訂正。

在Off-policy蒸餾階段，首先使用教師模型（MoE模型使用235B蒸餾30B，密集模型使用32B蒸餾其他）在大規模的數據集上生成大量高質量的輸出。

然後，這些數據作為監督信號，對學生模型進行訓練，使之儘可能地模仿教師模型的輸出分佈。

在這個階段，教師模型使用的是思考和非思考模式的混合輸出，這使得學生模型也能夠同時學習到應對兩種模式的能力。

在On-policy蒸餾階段，研究團隊採用了一種更加動態和交互式的學習方式。

這個階段首先讓學生模型在實際任務中自主生成一系列輸出，然後將這些輸出與教師模型在相同任務上的輸出進行比對。

學生模型的優化目標是最小化其輸出分佈與教師模型輸出分佈之間的差異。

通過這種持續的自我生成和比對過程，學生模型可以在實踐中不斷修正和完善其知識體系，使其輸出分佈逐步逼近教師模型。

Qwen版DeepResearch上線

除了發佈Qwen3的技術報告，Qwen Chat還全量上線了深度研究功能，此前該功能進行了分階段測試。

按官方介紹，只要描述問題，然後回答模型給出的細化提問，等過一杯咖啡的時間，Qwen就能整理出一份研究報告。

官方案例中，Qwen研究了這樣的一個問題：

醫療保健行業在過去三年中如何適應遠程醫療和數字健康工具？必要時使用表格讓表達更加清晰。

可以看到，在明確具體需求之後，Qwen規划了方案，然後分成子問題進行檢索、總結，研究過程用時約8分半，最終生成了帶有表格的報告，並自動導出pdf。

感興趣的話不妨體驗一下~

報告地址：
https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
Qwen Chat：
https://chat.qwen.ai

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

科技

圓通在上海成立無人機科技公司 - 天天要聞

圓通在上海成立無人機科技公司

天眼查App顯示，近日，上海圓航無人機科技有限公司成立，法定代表人為李恆貴，註冊資本100萬人民幣，經營範圍包括智能無人飛行器銷售、智能機械人的研發、智能物料搬運裝備銷售等。股東信息顯示，該公司由圓通速遞有限公司全資持股。...

06月17日 5367

微信將迎史詩級更新，網友：我80個G的聊天記錄終於有救了 - 天天要聞

微信將迎史詩級更新，網友：我80個G的聊天記錄終於有救了

近日有消息稱，微信正在優化聊天記錄備份的功能，支持U盤等多種存儲設備。對此，微信方面回應稱，正小範圍測試聊天記錄備份功能優化。

06月17日 1204

飛行汽車量產「提速」多家企業公布新進展 - 天天要聞

飛行汽車量產「提速」多家企業公布新進展

日前，廣汽、長安、一汽、小鵬、沃飛長空等多家企業陸續公布在「飛行汽車」領域的新進展。有觀點認為，飛行汽車正從實驗室邁向市場商業化的起點，相比自動駕駛在複雜路況中的掙扎，飛行汽車在相對可控的低空環境中，反而可能率先實現從概念到現實應用的關鍵一躍。多企業公布新進展多家企業集體發力，無疑為飛行汽車的量產按...

06月17日 3444

iPhone上也能跑Qwen3了！阿里一口氣開源32款MLX模型 - 天天要聞

iPhone上也能跑Qwen3了！阿里一口氣開源32款MLX模型

「源神」千問，又一次悶聲干大事！今天刷 Reddit 才發現：昨晚，阿里千問一口氣開源了 32 款，適配蘋果 MLX 架構的 Qwen3 模型。沒錯，32 款，就是這麼量大實惠。

06月17日 1635

已有18款小米機型獲澎湃OS年中升級系統/相機體驗優化 - 天天要聞

已有18款小米機型獲澎湃OS年中升級系統/相機體驗優化

【CNMO科技消息】近日，CNMO注意到，根據第三方統計，目前已經有至少17款小米手機/平板等設備或推澎湃OS 2年中升級。據了解，目前已有15款機型進入全量推送或灰度轉全量階段，包括Xiaomi 15系列（含15/15 Pro/15 Ultra）、14系列（14/14 Pro/14 Ultra）、13系列（13/13 Pro/13 Ultra），以及MI

06月17日 3748

韶音獲評全國科技創新百強企業：以開放式聆聽創新破局 - 天天要聞

韶音獲評全國科技創新百強企業：以開放式聆聽創新破局

在經濟高質量發展的進程中，科技創新向來被視為關鍵力量。這其中，企業發揮的創新主體作用顯然不言而喻。

06月17日 1664

台州學院「智方同源」團隊：以數智科技賦能傳統葯食同源 - 天天要聞

台州學院「智方同源」團隊：以數智科技賦能傳統葯食同源

在台州學院創業學院的鼎力支持與浙江省生態學保護重點實驗室的科研支撐下，台州學院「智方同源」學生團隊應運而生。該團隊聚焦於葯食同源領域，創新性地將大數據分析與人工智能技術深度融入功能食品配方設計，首創傳統食療配方圖神經分析技術、食品配方成分-功效網絡模塊互作評價方法和口感預測卷積神經網絡分析技術，致力...

06月17日 1186

S11芯片＋5G加持！Apple Watch Ultra 3今年登場？ - 天天要聞

S11芯片＋5G加持！Apple Watch Ultra 3今年登場？

日前，分析師 Jeff Pu在一份關於蘋果2025年的產品規劃路線圖裡提到，除了新款 Apple Watch Series 11，今年蘋果也將推出大家都十分關注的新款智能手錶 Apple Watch Ultra 3。屆時 Apple Watch Series 11以及 Apple Watch Ultra 3這兩款新手將會和期待已久的 iPhone 17 系列

06月17日 1215

以伊衝突還在打，市場卻已經翻篇了！ - 天天要聞

以伊衝突還在打，市場卻已經翻篇了！

本周一的交易數據講述了一個令人震驚的故事。就在以色列和伊朗兩國持續相互攻擊之際，黃金價格下跌，美債收益率上升，股市波動率暴跌。股票相對於長期債券的表現達到了特朗普就職日以來的最強水平。這些都是典型的"風險開啟"環境信號。以色列攻擊伊朗核設施長期以來被視為可能嚴重惡化全球風險環境的"終極事件"，然而，油價...

06月17日 3909

人民日報盛讚華為、C919以及DeepSeek - 天天要聞

人民日報盛讚華為、C919以及DeepSeek

【TechWeb】據今日《人民日報》報道，無論是中小型企業還是科技行業的領軍巨頭，都在不斷的實踐與探索中凝練出了一條共通的發展真理：持之以恆，沉得住氣。面對外界的封鎖與壓力，華為公司逆境而上，推出了具有突破性的麒麟系列芯片，並自主研發了鴻蒙操作系統，這些新產品在全球市場上實現了重要突破。華為創始人任正非表...

06月17日 4972