Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型

2025年05月14日15:42:07 科技 1508

克雷西 發自 凹非寺

量子位 | 公眾號 QbitAI

Qwen3技術報告新鮮出爐,8款模型背後的關鍵技術被揭曉!

  • 採用了雙模式架構,一個模型同時支持推理和非推理任務,根據需要自動切換。
  • 訓練和微調過程採取分段式策略,逐步構建模型能力。
  • 採取了「大帶小」的模式,從大號模型中蒸餾數據訓練小號模型。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

有已經讀完報告的網友,還發現了其中的更多亮點。

比如這位Hugging Face研究員感嘆,Qwen3在RL階段的樣本量,竟然不到4k。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

思考/非思考,一個模型搞定

Qwen3系列包括6個密集模型,參數量分別為0.6B、1.7B、4B、8B、14B和32B;以及2個MoE模型,總參數量分別為30B和235B,激活參數量對應為3B和22B。

密集模型的架構與Qwen2.5相似,但移除了Qwen2中使用的QKV偏置,並在注意力機制中引入了QK-Norm,以確保Qwen3的穩定訓練。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

與Qwen2.5-MoE不同,Qwen3-MoE設計不包含共享專家,另外Qwen3採用了全批次負載均衡損失來促進專家專業化。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

Qwen3的一個核心創新就是其雙重工作模式,也就是思考模式和非思考模式的融合,兩種模式分別對應了複雜推理任務和快速應答任務的需求。

為了靈活地在兩種模式間切換,Qwen3引入了thinking budget(思考預算)的概念。

Thinking budget本質上是一個決定thinking mode下計算資源投入的參數,它的大小與輸入問題的複雜程度成正相關。

當接收到輸入後,模型會評估其複雜程度,動態分配thinking budget。

簡單問題會被分配較少的thinking budget,使得模型傾向於快速給出答案;複雜問題則會分配較高的thinking budget,模型會投入更多算力深入思考後再給出答案。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

Qwen3這樣訓練

預訓練環節,Qwen3採用了三階段策略,逐步構建和強化模型的語言理解和生成能力。

第一階段的目的是讓模型掌握語言和通用基本知識,這部分的訓練在通用語料上進行,採用了4096個token的序列長度。

第二階段側重於增強模型的推理能力。此階段採用了更高質量的語料,主要來自於STEM、編程、推理等領域。

通過在這些語料上的訓練,模型的邏輯分析、因果推理等能力得到了顯著提升。此階段的序列長度仍為4096個token,但學習率衰減速度加快。

第三階段則專註於長文本能力,使用了研究團隊專門收集的高質量長文檔語料,並將訓練序列長度擴展到了32768個token。

通過在這些超長文本上的訓練,模型學會了處理複雜的長距離依賴關係,掌握了跨段落、跨文檔的信息整合技能。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

後訓練同樣採用了分段式的方法,一共可以分為四個階段。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

第一階段稱為長思維鏈冷啟動,目標是為模型在數學和編程領域的推理任務建立初始的解題能力。

Qwen團隊構建了一個包含大量高質量數學和編程問題的數據集,並為每個問題標註了詳細的解題步驟,然後使用這些標註數據對模型進行監督微調,使其掌握解題的關鍵技能和常見思路。

具體來說,他們通過Qwen2.5-72B對問題進行篩選,然後使用QwQ-32B模型自動生成初步的解題步驟,這當中,人類專家對這些自動生成的解題步驟進行核對和修正,確保其準確性和可讀性。

這個階段的訓練樣本數量和訓練步數都被控制在一個較小的規模,目的是讓模型掌握基本的解題能力,而不是過度專門化。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

第二階段則是推理強化學習,在第一階段的基礎上進一步引入了強化學習,以優化模型的解題策略。

他們從第一階段的數據集中篩選出了3995個問題,這些問題需要覆蓋一定領域、具備一定難度,但可被模型學習。

這一階段當中,會通過GRPO對模型參數進行更新。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

第三階段思維模式融合,顧名思義,目的是將思考和非思考兩種模式融合進同一個模型,這一過程使用了同時包含思考和非思考內容的SFT數據集。

對於思考類型的樣本,Qwen團隊沿用了前兩個階段的數據生成方法;對於非思考類型的樣本,則是廣泛收集了一些開放域對話數據,並針對性地生成了一些問候語、指令等樣本。

此外,團隊還設計了一種聊天模板,在輸入側用一些特殊標記來區分思考和非思考模式。

通過在這個混合數據集上進行繼續預訓練,並融入人類反饋,模型學會了根據輸入信號靈活切換兩種模式,形成了一個無縫集成的雙模態系統。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

最後一個階段是通用強化學習,目的是進一步增強模型在多種場景下的能力和穩定性。

該階段中,Qwen團隊構建了一個覆蓋廣泛任務的強化學習環境,包括問答、寫作、代碼生成、數學推理等20多個種類的任務。每個任務都設計了獨特的評分標準。

並且,這些特別針對指令遵循、格式遵循、偏好遵循等能力的提升。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

除了這樣的訓練模式之外,Qwen3家族還採用了「大帶小」的數據蒸餾模式

蒸餾分為Off-policy蒸餾和On-policy蒸餾兩個主要階段。

類比人類學習的話,第一個階段像是背書,第二個階段則是刷題並自己根據答案訂正。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

在Off-policy蒸餾階段,首先使用教師模型(MoE模型使用235B蒸餾30B,密集模型使用32B蒸餾其他)在大規模的數據集上生成大量高質量的輸出。

然後,這些數據作為監督信號,對學生模型進行訓練,使之儘可能地模仿教師模型的輸出分佈。

在這個階段,教師模型使用的是思考和非思考模式的混合輸出,這使得學生模型也能夠同時學習到應對兩種模式的能力。

在On-policy蒸餾階段,研究團隊採用了一種更加動態和交互式的學習方式。

這個階段首先讓學生模型在實際任務中自主生成一系列輸出,然後將這些輸出與教師模型在相同任務上的輸出進行比對。

學生模型的優化目標是最小化其輸出分佈與教師模型輸出分佈之間的差異。

通過這種持續的自我生成和比對過程,學生模型可以在實踐中不斷修正和完善其知識體系,使其輸出分佈逐步逼近教師模型。

Qwen版DeepResearch上線

除了發佈Qwen3的技術報告,Qwen Chat還全量上線了深度研究功能,此前該功能進行了分階段測試。

按官方介紹,只要描述問題,然後回答模型給出的細化提問,等過一杯咖啡的時間,Qwen就能整理出一份研究報告。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

官方案例中,Qwen研究了這樣的一個問題:

醫療保健行業在過去三年中如何適應遠程醫療和數字健康工具?必要時使用表格讓表達更加清晰。

可以看到,在明確具體需求之後,Qwen規划了方案,然後分成子問題進行檢索、總結,研究過程用時約8分半,最終生成了帶有表格的報告,並自動導出pdf。

Qwen3訓練秘籍公開:思考/非思考融進一個模型,大模型蒸餾小模型 - 天天要聞

感興趣的話不妨體驗一下~

報告地址:
https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
Qwen Chat:
https://chat.qwen.ai

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

科技分類資訊推薦

正帆科技與華茂能聯達成戰略合作,攜手共拓智能用電和清潔能源未來 - 天天要聞

正帆科技與華茂能聯達成戰略合作,攜手共拓智能用電和清潔能源未來

在國家雙碳戰略目標引領下,2025年5月9日上海,上海正帆科技股份有限公司(正帆科技)與深圳華茂能聯科技有限公司(華茂能聯)於正帆科技總部正式簽署戰略合作協議。雙方將立足於集成電路、平板顯示、半導體照明、太陽能光伏、生物製藥以及光纖製造等工業應用場景的降本降碳、綠色能源規劃、智能用電管理和面向電力市場的源...
盲人辦卡被營業廳要求「眨眼」 遭遇「強制刷臉」怎麼辦? - 天天要聞

盲人辦卡被營業廳要求「眨眼」 遭遇「強制刷臉」怎麼辦?

這兩天「眼球缺失盲人辦卡被要求眨眼刷臉」引發廣泛關注無法睜眼怎麼眨眼驗證?一起來看到底咋回事「辦卡要刷臉,可我沒法眨眼」今年5月初,80周歲的管先生在保姆的陪同下,來到江蘇省揚州市江都區的某運營商營業廳,準備辦理一張手機卡。管先生原本以為,憑藉身份證就能順利辦卡,可沒想到,在人臉識別環節卻卡了殼。「...
京東外賣系統崩潰?客服:午間時段可能人力不足,會顯示無人接單 - 天天要聞

京東外賣系統崩潰?客服:午間時段可能人力不足,會顯示無人接單

紅星資本局5月14日消息,今日午間,多名網友發帖稱訂購的京東外賣沒有騎手接單配送、出現訂單延遲等情況,引發熱議。資料配圖 圖據視覺中國不少網友在社交平台留言稱:「服務器又崩了」「騎手都快送到了訂單裏面還顯示無騎手接單」。截圖自微博對此,京東客服表示,騎手接單在午間時段有可能出現人力不足的情況,有時候會出...
中國數據鏈,接入中東! - 天天要聞

中國數據鏈,接入中東!

(如文章引起大家共鳴,請「點贊」以及「轉發」,以支持繼續創作,謝謝大家!)如今,中國製造的科技產品、基建項目和各類合作在海灣地區隨處可見。這些正在慢慢改變人們對美國與海灣國家緊密關係的看法。美國總統特朗普這周按計劃訪問沙特阿拉伯、卡塔爾和阿
如何計算MOS驅動電路的參數? - 天天要聞

如何計算MOS驅動電路的參數?

以這個能夠控制開關速度的驅動電路為例如圖,D1是驅動電阻Rg2上並聯一個快恢復二極管,使關斷時間減小同時減小關斷損耗,Rg1可以限制關斷電流,R1為mos管柵源極的下拉電阻,給mos管柵極積累的電荷提供泄放迴路。
產品開發活動的重疊策略 - 天天要聞

產品開發活動的重疊策略

全球化的競爭、科技的進步及滿足客戶需求的趨勢下,產品的生命周期越來越短。企業必須不間斷地進行新產品開發,增加企業的價值、創造利潤。
化肥廠智能化管理新範式:新銳科創人員定位系統解決方案 - 天天要聞

化肥廠智能化管理新範式:新銳科創人員定位系統解決方案

化肥廠作為化工產業的核心生產單元,內部作業流程複雜,危險化學品儲存區、高溫高壓反應車間等風險區域密布,大型設備林立,加之員工數量眾多且作業區域分散,對人員安全管理與生產調度效率提出了極高要求。傳統人員管理模式在實時定位、精準監控等方面存在顯
智能充電盒「小安」上崗,精準鎖定電動單車潛在隱患 - 天天要聞

智能充電盒「小安」上崗,精準鎖定電動單車潛在隱患

近期,在北京市西城區西長安街街道的平房區,一款名為「小安」的電動單車專用智能充電盒亮相街頭,這款充電盒配有聯網型充電檢測設備,能夠採集充電數據,分析電池、充電器存在的安全隱患。截至5月13日,「小安」已累計發現9起可疑電動單車電池安全隱患,這些隱患均被及時排查、消除。去年12月,西長安街街道平安辦委託...