騰訊AngelSlim重磅升級！面向全模態的大模型壓縮演算法工具包，推理速度飆升 1.8倍！

2026年01月13日17:20:17 科技 8118

近年來，大模型正從能力競賽走向工程落地，推理階段的成本、時延與穩定性逐漸成為制約規模化應用的核心因素。在長上下文、高並發與多模態場景下，解碼過程受限於算力與顯存帶寬，單純依賴模型壓縮或硬體堆疊的優化路徑正逼近邊際收益，促使業界重新審視推理機制本身的優化空間。

在這一背景下，投機採樣（speculative decoding）通過「小模型多步生成 + 大模型並行驗證」，在保證生成質量的前提下減少大模型的有效前向計算。騰訊混元近期升級的 angelslim 圍繞 eagle3 投機採樣訓練範式構建系統化實現，將投機採樣提升為可訓練、可遷移的加速能力，並擴展至 llm、視覺語言與語音等多模態場景，在實際部署中最高可實現 1.9× 的推理加速，為多模態 ai 的實時化與規模化應用奠定基礎。

一、angelslim +投機採樣

投機採樣是一種通過小模型多步預測 + 大模型一步驗證的推理加速技術，其核心思想是：使用一個輕量級的草稿模型生成多個候選 token，由目標模型對候選結果進行並行驗證是否接受，以此來並行解碼加速，在有效利用大模型解碼階段的算力冗餘，提升推理吞吐並降低單請求延遲。

angelslim是一款集成了包括量化、投機採樣等壓縮演算法，面向全模態的大模型壓縮演算法工具包。此次對投機採樣訓練進行了重磅升級，支持了大語言、多模態理解、語音等不同模態大模型投機採樣草稿模型訓練能力。

angelslim 以「eagle3訓練即部署」為設計核心，提供從數據處理、模型封裝到投機採樣演算法訓練的完整鏈路，幫助開發在不侵入現有模型結構的前提下，顯著降低推理時延與計算成本，各模態、各類大模型加速可達1.4-1.9倍。

騰訊AngelSlim重磅升級！面向全模態的大模型壓縮演算法工具包，推理速度飆升 1.8倍！ - 天天要聞

github開源地址：https://github.com/tencent/angelslim

二、核心亮點

1.覆蓋從文生文、多模態理解到語音的全模態投機採樣訓練

angelslim是一個從設計之初就支持全模態的投機採樣訓練框架，通過統一的訓練介面，不同模態之間共享核心演算法與工程能力，避免

重複造輪子。

2.面向部署

angelslim 並不止步於「能訓」，而是強調訓出來就能用。angelslim訓練產出的模型可以無縫用於vllm/sglang等框架進行部署。

三、核心訓練組件解析

1.數據處理模塊

數據處理模塊為投機採樣訓練多個模態提供穩定、可復用的數據基礎，主要包括：

a. 數據重採樣：針對分布外數據集重新採樣，生成分布內數據集用以訓練。

b. 數據預處理：

i. 統一不同模態的數據格式，將文本、圖像、音頻等輸入標準化處理成token ids和loss mask。

ii. 草稿模型裁剪詞表的映射。

c. 隱藏特徵提取：根據處理好的token ids獲取對應的隱藏特徵。

2.模型模塊

模型模塊是 angelslim 實現高度擴展性的關鍵。

a.統一的 targetmodel 介面

i. angelslim提供統一的targetmodel介面，包括模型載入與權重管理、前向計算、中間層 / 隱狀態特徵提取等抽象方法；

b. 低成本擴展新的模型後端

ii. 對於新的模型架構或後端，用戶只需實現 targetmodel 中定義的抽象方法即可完成模型註冊並接入訓練流程，無需修改訓練器或核心演算法代碼。這一設計極大降低了對新模型、新模態的適配成本。

3.訓練器模塊

a.訓練器針對eagle3演算法特點設計了兩種訓練模式：在線訓練和離線訓練。在線與離線訓練的區別在於是否預先生成並存好全量數據的hidden states。在線訓練適合小尺寸模型或顯存足夠的場景，離線訓練適合大尺寸模型、低顯存高磁碟空間機器。

b.訓練器實現封裝了eagle3等投機採樣演算法訓練的關鍵邏輯：

i. 訓練時測試（training-time-test）：訓練時模擬eagle3模型多步生成過程，讓eagle3模型看到並學習使用自己的預測。

c.訓練器原生支持斷點續訓能力，完整保存並恢復：

i.草稿模型參數

ii.optimizer / lr scheduler 狀態以及訓練進度

四、實踐與部署

1.快速開始

當安裝好angelslim後，進入angelslim根目錄按照如下命令可以快速開始eagle3的訓練：

# 啟動vllm服務
bash scripts/speculative/run_vllm_server.sh
# 生成訓練數據
bash scripts/speculative/generate_data_for_target_model.sh
# 開始在線訓練
bash scripts/speculative/train_eagle3_online.sh

其中前兩條命令是準備數據，對訓練數據進行重採樣，生成目標模型分布內的數據。這一步是可選項，如果訓練數據已經是來自目標模型的sft數據或自身生成的數據，這一步可跳過。對eagle3模型進行訓練直接執行最後一條命令即可。並且我們提供了全面的多模態模型 eagle3 訓練與部署指南，支持llm / vlm / audio (asr & tts) ，詳見文檔：llm | vlm | audio(asr) | audio(tts)。

2.angelslim訓練模型的加速表現

我們使用vllm在代碼、數學、指令跟隨、文本生成、多模態理解等任務上評測了angelslim所訓練的eagle3模型，設置num_speculative_tokens=2 or 4下我們所訓的模型接收長度可達1.8-3.5，最高加速可達1.4-1.9倍。

3.代碼和模型鏈接

a. angelslim代碼github開源倉庫：

https://github.com/tencent/angelslim

b. hugging-face eagle3模型與權重：

https://huggingface.co/collections/angelslim/eagle3

五、未來計劃

在未來規劃中，工具化方面，我們計劃支持基於 vllm 的離線 hidden states 生成，以進一步降低數據構建與訓練成本，並通過系統性的訓練加速優化提升整體訓練效率；演算法創新方面，將探索多模態理解與語音輸入信息在eagle3 模型中的深度融合，統一建模文本、視覺與語音特徵，拓展投機採樣在全模態場景下的適用性與加速潛力。