2025智源大會,新一代「面壁小鋼炮」 MiniCPM4.0 端側模型發佈。一款 8B 稀疏閃電版,帶來端側性能創新躍升;一款 0.5B 實力演繹以小博大,適配廣泛終端場景。
第四代小鋼炮推出了首個原生稀疏模型,5%的極高稀疏度加持系統級創新技術的大爆發,讓長文本、深思考在端側真正跑起來,宣告了端側長文本時代到來。220倍極限加速,一半參數翻倍性能的強悍表現,帶來端側基模最極致表現。
一
代號「前進四」,小鋼炮 MiniCPM4.0 樹立起新一代端側基礎模型標杆,帶來超預期的速度、性能、存儲與端側部署表現。

前進四,代表極致的速度提升:面對此前端側模型長文本「龜速推理」業界難題,MiniCPM 4-8B 「閃電稀疏版」,採用了新一代上下文稀疏高效架構,相較於 Qwen-3-8B、Llama-3-8B、GLM-4-9B等同等參數規模端側模型,實現了長文本推理速度 5 倍常規加速以及最高 220 倍加速(顯存受限極限場景下測出),真正讓端側模型長文本推理實現了「快如閃電」的質變。此外,注意力機制上實現了高效雙頻換擋,長文本用稀疏,短文本用稠密,切換快如流。
前進四,代表性能的大迸發:MiniCPM 4.0 推出端側性能「大小王」組合,擁有 8B 、0.5B 兩種參數規模,延續「以小博大」特性,實現了同級最佳的模型性能。其中,MiniCPM 4.0-8B 模型為稀疏注意力模型,在MMLU、CEval、MATH500、HumanEval等基準測試中,以僅 22% 的訓練開銷,性能比肩 Qwen-3-8B,超越Gemma-3-12B。MiniCPM 4.0-0.5B 在性能上,也展現出驚人的以小博大—— 相較更大的Qwen-3-0.6B、Llama 3.2, 僅2.7%的訓練開銷,一半參數性能翻倍,並實現了最快 600 Token/s 的極速推理速度。

前進四,代表端側部署的極致優化:MiniCPM 4.0 持續衛冕全球最強端側模型,並進一步實現了長文本緩存的大幅銳減,在 128K 長文本場景下,MiniCPM 4.0-8B 相較於 Qwen3-8B 僅需 1/4 的緩存存儲空間。量化版身輕如燕,高達90%的模型瘦身,性能依然十分穩健。在速度、性能飆升的同時,又做到了模型極致壓縮,讓端側算力不再有壓力,成為業界最為友好的端側模型。
在應用上,端側長文本的突破帶來更多可能。基於 8B 版本,團隊微調出兩個特定能力模型,分別可以用做 MCP Client 和純端側性能比肩 Deep Research 的研究報告神器 MiniCPM4-Surve。

與此同時,面壁智能也攜手諸多行業夥伴,持續推動 MiniCPM 4.0 模型適配及應用拓展。截止目前,MiniCPM 4.0 已實現 Intel、高通、MTK、華為昇騰等主流芯片的適配。此外, MiniCPM 4.0可在 vLLM、SGLang、llama.cpp、LlamaFactory、XTuner等開源框架部署。同時加強了對 MCP的支持,且性能超過同尺寸開源模型( Qwen-3-8B),進一步拓展了模型開發、應用潛力。
二
首個原生稀疏模型的發佈,讓長文本在端側奔跑真正成為可能。由於傳統稠密模型的上下文窗口受限,長文本又提出比較高的內存和算力需求,過去在端側場景幾乎不可用。對這一問題的解決,至關重要,又比較艱難,需要貫穿架構層、算法層、系統層、數據層的系統級層層優化
長文本是模型發展的重要技術發力點,可以保證生成文本的連貫性和一致性。在端側需求更甚,因為用戶終端上有大量的用戶個人信息上下文,只有處理好這些上下文,才能真正做出最懂用戶的個人助理產品。而這些個人信息上下文,隱私性非常高,譬如聊天記錄、位置信息等,只有完全端側實現才能保證個人信息安全。終端設備對世界的感知,也同樣需要在端側發生,典型的案例是輔助(自動)駕駛,光學攝像頭和其它傳感器的感知信號必須要在本地處理和理解,避免延遲和丟包。而感知所需要的多模態模型能力,對長上下文的要求是極其誇張的,模型想要記住一路攝像頭 10 分鐘之類的連續視覺信號,供實時推理使用,就已經需要超過 100K 的上下文長度了,還不考慮多路及聲音和其它傳感器所代表的模態信號。
這次行業首例全開源的系統級上下文稀疏化高效創新,具體來說是基於新一代稀疏注意力架構 InfLLM 做了模型創新,並通過自研端側推理三級火箭,自研 CPM.cu 極速端側推理框架,從 投機採樣創新、模型壓縮量化創新、端側部署框架創新 幾方面,帶來 90% 的模型瘦身和極致速度提升,最終實現端側推理從天生到終生的高效絲滑。同時,在綜合性能的極限推進上,點滴領先背後都是「十年之功」的積累,新一代模型的發佈也是研究團隊技術創新的集大成呈現。
1、【架構高效】新一代稀疏注意力架構 InfLLM ,速度準度雙效提升
引入稀疏注意力架構為什麼在當下如此重要?一是長文本處理、深度思考能力成為人們對大模型愈來愈迫切的需求,而傳統稠密模型上下文窗口受限;二是稀疏度越高,計算量越小,速度越快越高效。DeepSeek等明星項目以稀疏模型架構撬動的「高效低成本」收益愈益得到認可。端側場景天然因算力限制,對效率提升與能耗降低要求則更加迫切。

傳統 Transformer 模型的相關性計算方式是每個詞元都需要和序列中所有 詞元進行相關性計算,造成了較高的計算代價。MiniCPM 4.0 模型採用的 InfLLMv2 稀疏注意力架構改變了傳統 Transformer 模型的相關性計算方式,到分塊分區域高效「抽查」——即對文本進行分塊分區域處理後,通過智能化選擇機制,只需對最有相關性的重點區域進行注意力計算「抽查」,擺脫了逐字重複計算的低效。InfLLMv2 通過將稀疏度從行業普遍的40%-50%,降至極致的 5%,注意力層僅需1/10的計算量即可完成長文本計算。且對算子底層重寫,進一步加速提升,並使得對文本相關性精準性大大提升。
值得一提的是,DeepSeek 使用的長文本處理架構 NSA(Native Sparse Attention)也引用並採用了與InfLLM相同的分塊注意力計算思路,但其對於短文本的推理較慢,InfLLMv2 則很好的解決了NSA在短文本推理上的短板。
針對單一架構難以兼顧長、短文本不同場景的技術難題,MiniCPM 4.0-8B 採用「高效雙頻換擋」機制,能夠根據任務特徵自動切換注意力模式:在處理高難度的長文本、深度思考任務時,啟用稀疏注意力以降低計算複雜度,在短文本場景下切換至稠密注意力以確保精度與速度,實現了長、短文本切換的高效響應。

2. 【推理高效】推理高效三級火箭,自研全套端側高性能推理框架
在推理層面,MiniCPM 4.0 通過 CPM.cu 自研推理框架、BitCPM 極致低位寬量化、ArkInfer自研跨平台部署框架等技術創新,實現了極致的端側推理加速。
CPM.cu 端側自研推理框架,做到了稀疏、投機、量化的高效組合,最終實現了 5 倍速度提升。其中,FR-Spec 輕量投機採樣類似於小模型給大模型當「實習生」,並給小模型進行詞表減負、計算加速。通過創新的詞表裁剪策略,讓小模型專註於高頻基礎詞彙的草稿生成,避免在低頻高難度詞彙上浪費算力,再由大模型進行驗證和糾正。
BitCPM 量化算法,實現了業界SOTA級別的 4-bit 量化,並成功探索了 3 值量化(1.58bit)方案。通過精細的混合精度策略和自適應量化算法,模型在瘦身 90%後,仍能保持出色的性能表現。
ArkInfer自研跨平台部署框架,面向多平台端側芯片極致優化,實現了大平台的高效投機採樣和限制編碼,確保端側多平台 Model zoo 絲滑使用。

3、【訓練+數據高效】打造大模型光刻機,優化科學化建模產線
為什麼面壁總能帶來同等參數、性能更強,同等性能、參數更小的先進模型?大模型製程看得見的領先背後,是無數看不見的技術積累與嚴苛標準;是點點滴滴細節的精益求精。
區別於業界普遍採用的「大力出奇蹟」路線,面壁智能堅持以「高效」為核心的技術路徑。對大模型科學化的探索,貫穿從數據、訓練、學習、推理等層層流程,實現了研發投入產出比的最大化。
好數據才有好模型,高效構建高質量數據,是高質量模型的基本盤。面壁在這一領域擁有諸多創新方法,並且悉數開源。譬如,Ultra-FineWeb 高知識密度數據篩選機制,用「半成品加工法」來構造萬億數據,通過先訓一個「半熟」模型, 再用新數據快速微調,如同預製菜快出成果,最終實現 90% 的驗證成本降低。在大規模數據質檢方面,利用輕量化的 FastText 工具,處理 15 萬億 token 數據僅需 1000 小時 CPU 時間。同時,UltraChat-v2 合成了包含數百億詞元的高質量對齊數據,在知識類、指令遵循、長文本、工具使用等關鍵能力上進行定向強化。在高質量數據與高效訓練策略的加持下,相比同尺寸開源模型,MiniCPM 4.0-8B 僅用 22% 的訓練開銷,即可達到相同能力水平。
在訓練策略上,MiniCPM 4.0 應用了迭代升級後的風洞 2.0 方案(Model Wind Tunnel v2),通過在 0.01B-0.5B 小模型上進行高效實驗,搜索最優的超參數配置並遷移到大模型,相比此前的 1.0 版本,風洞 2.0 將配置搜索的實驗次數降低 50%。針對強化學習訓練中的負載不均問題,Chunk-wise Rollout 技術通過分段採樣策略,確保 GPU 資源的高效利用。工程層面還採用了 FP8 訓練和 MTP 監督信號等前沿技術,進一步提升訓練效率。

此次 MiniCPM 4.0 的發佈,是面壁智能持續探索高效大模型道路上的又一重要里程碑,通過多維度、高密度的優化,真正做到行業唯一的端側可落地的系統級軟硬件稀疏化高效創新。這也是面壁獲得來自社區廣泛認同的本因。截至目前,面壁小鋼炮 MiniCPM 系列全平台下載量累計破 1000 萬。未來,面壁智能還將基於「大模型密度定律 Densing Law」,持續提高大模型的知識密度與智能水平,推動端側智能高效發展與規模化產業應用。
