騰訊AngelSlim重磅升級!面向全模態的大模型壓縮演算法工具包,推理速度飆升 1.8倍!

2026年01月13日17:20:17 科技 8118

近年來,大模型正從能力競賽走向工程落地,推理階段的成本、時延與穩定性逐漸成為制約規模化應用的核心因素。在長上下文、高並發與多模態場景下,解碼過程受限於算力與顯存帶寬,單純依賴模型壓縮或硬體堆疊的優化路徑正逼近邊際收益,促使業界重新審視推理機制本身的優化空間。

在這一背景下,投機採樣(speculative decoding)通過「小模型多步生成 + 大模型並行驗證」,在保證生成質量的前提下減少大模型的有效前向計算。騰訊混元近期升級的 angelslim 圍繞 eagle3 投機採樣訓練範式 構建系統化實現,將投機採樣提升為可訓練、可遷移的加速能力,並擴展至 llm、視覺語言與語音等多模態場景,在實際部署中最高可實現 1.9× 的推理加速,為多模態 ai 的實時化與規模化應用奠定基礎。


一、angelslim +投機採樣

投機採樣是一種通過小模型多步預測 + 大模型一步驗證的推理加速技術,其核心思想是:使用一個輕量級的草稿模型生成多個候選 token,由目標模型對候選結果進行並行驗證是否接受,以此來並行解碼加速,在有效利用大模型解碼階段的算力冗餘,提升推理吞吐並降低單請求延遲。

angelslim是一款集成了包括量化、投機採樣等壓縮演算法,面向全模態的大模型壓縮演算法工具包。此次對投機採樣訓練進行了重磅升級,支持了大語言、多模態理解、語音等不同模態大模型投機採樣草稿模型訓練能力。

angelslim 以「eagle3訓練即部署」為設計核心,提供從數據處理、模型封裝到投機採樣演算法訓練的完整鏈路,幫助開發在不侵入現有模型結構的前提下,顯著降低推理時延與計算成本,各模態、各類大模型加速可達1.4-1.9倍

騰訊AngelSlim重磅升級!面向全模態的大模型壓縮演算法工具包,推理速度飆升 1.8倍! - 天天要聞

github開源地址:https://github.com/tencent/angelslim


二、核心亮點

1.覆蓋從文生文、多模態理解到語音的全模態投機採樣訓練

angelslim是一個從設計之初就支持全模態的投機採樣訓練框架,通過統一的訓練介面,不同模態之間共享核心演算法與工程能力,避免

重複造輪子。


2.面向部署

angelslim 並不止步於「能訓」,而是強調訓出來就能用。angelslim訓練產出的模型可以無縫用於vllm/sglang等框架進行部署。


三、核心訓練組件解析


騰訊AngelSlim重磅升級!面向全模態的大模型壓縮演算法工具包,推理速度飆升 1.8倍! - 天天要聞

1.數據處理模塊

騰訊AngelSlim重磅升級!面向全模態的大模型壓縮演算法工具包,推理速度飆升 1.8倍! - 天天要聞

數據處理模塊為投機採樣訓練多個模態提供穩定、可復用的數據基礎,主要包括:

a. 數據重採樣:針對分布外數據集重新採樣,生成分布內數據集用以訓練。

b. 數據預處理:

    i.  統一不同模態的數據格式,將文本、圖像、音頻等輸入標準化處理成token ids和loss mask。

    ii. 草稿模型裁剪詞表的映射。

c. 隱藏特徵提取:根據處理好的token ids獲取對應的隱藏特徵。

騰訊AngelSlim重磅升級!面向全模態的大模型壓縮演算法工具包,推理速度飆升 1.8倍! - 天天要聞

2.模型模塊

模型模塊是 angelslim 實現高度擴展性的關鍵。

a.統一的 targetmodel 介面

    i. angelslim提供統一的targetmodel介面,包括模型載入與權重管理、前向計算、中間層 / 隱狀態特徵提取等抽象方法;

b. 低成本擴展新的模型後端

    ii. 對於新的模型架構或後端,用戶只需實現 targetmodel 中定義的抽象方法即可完成模型註冊並接入訓練流程,無需修改訓練器或核心演算法代碼。這一設計極大降低了對新模型、新模態的適配成本。

騰訊AngelSlim重磅升級!面向全模態的大模型壓縮演算法工具包,推理速度飆升 1.8倍! - 天天要聞

3.訓練器模塊

a.訓練器針對eagle3演算法特點設計了兩種訓練模式:在線訓練和離線訓練。在線與離線訓練的區別在於是否預先生成並存好全量數據的hidden states。在線訓練適合小尺寸模型或顯存足夠的場景,離線訓練適合大尺寸模型、低顯存高磁碟空間機器。

b.訓練器實現封裝了eagle3等投機採樣演算法訓練的關鍵邏輯:

    i. 訓練時測試(training-time-test):訓練時模擬eagle3模型多步生成過程,讓eagle3模型看到並學習使用自己的預測。

c.訓練器原生支持斷點續訓能力,完整保存並恢復:

    i.草稿模型參數

    ii.optimizer / lr scheduler 狀態以及訓練進度


四、實踐與部署

1.快速開始

當安裝好angelslim後,進入angelslim根目錄按照如下命令可以快速開始eagle3的訓練:

# 啟動vllm服務
bash scripts/speculative/run_vllm_server.sh
# 生成訓練數據
bash scripts/speculative/generate_data_for_target_model.sh
# 開始在線訓練
bash scripts/speculative/train_eagle3_online.sh

其中前兩條命令是準備數據,對訓練數據進行重採樣,生成目標模型分布內的數據。這一步是可選項,如果訓練數據已經是來自目標模型的sft數據或自身生成的數據,這一步可跳過。對eagle3模型進行訓練直接執行最後一條命令即可。並且我們提供了全面的多模態模型 eagle3 訓練與部署指南,支持llm / vlm / audio (asr & tts) ,詳見:llm | vlm | audio(asr) | audio(tts)。


2.angelslim訓練模型的加速表現

我們使用vllm在代碼、數學、指令跟隨、文本生成、多模態理解等任務上評測了angelslim所訓練的eagle3模型,設置num_speculative_tokens=2 or 4下我們所訓的模型接收長度可達1.8-3.5,最高加速可達1.4-1.9倍。

騰訊AngelSlim重磅升級!面向全模態的大模型壓縮演算法工具包,推理速度飆升 1.8倍! - 天天要聞


3.代碼和模型鏈接

a. angelslim代碼github開源倉庫:

https://github.com/tencent/angelslim

b. hugging-face eagle3模型與權重:

https://huggingface.co/collections/angelslim/eagle3


五、未來計劃

在未來規劃中,工具化方面,我們計劃支持基於 vllm 的離線 hidden states 生成,以進一步降低數據構建與訓練成本,並通過系統性的訓練加速優化提升整體訓練效率;演算法創新方面,將探索多模態理解與語音輸入信息在eagle3 模型中的深度融合,統一建模文本、視覺與語音特徵,拓展投機採樣在全模態場景下的適用性與加速潛力。

科技分類資訊推薦

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV,第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊,以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級,兼顧商務體面與家庭舒適,為西北高端用戶帶來一站式全能出行解決方案。
採購禁入!科華數據材料造假被拒門外 - 天天要聞

採購禁入!科華數據材料造假被拒門外

本報(chinatimes.net.cn)記者胡雅文 北京報道這家趕上AI算力風口的公司,因投標材料造假,被相關採購方列入禁入名單兩年,其此前提出的複議申請也被正式駁回。相關採購平台近日發布公告,明確駁回科華數據股份有限公司(下稱「科華數據」,002335.SZ)此前提交的複議申請。早在一年前,科華數據已被認定在「信息通信樞紐...
快評樂道L80:15萬元級買大五座,這波值得沖? - 天天要聞

快評樂道L80:15萬元級買大五座,這波值得沖?

日前,樂道L80正式發布並開啟預售,其整車購買預售價為24.58萬元起,租電購買預售價則低至15.98萬元起。面對大型SUV市場「細分再細分」之競爭趨勢,這款樂道年度重磅新車都有哪些優勢?又能否成為「大五座SUV革新之作」?下面,圈哥就帶大家全方位感受。
成都直擊凱威德:純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德:純電全尺寸SUV的張揚與大氣

4月22日,凱迪拉克以奧斯卡級盛典規格,將上海保利大劇院點亮為璀璨舞台,在品牌代言人倪妮與全場嘉賓的共同見證下,凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置,官方售價區間為46.88萬-50.88萬元。