腾讯AngelSlim重磅升级!面向全模态的大模型压缩算法工具包,推理速度飙升 1.8倍!

2026年01月13日17:20:17 科技 8118

近年来,大模型正从能力竞赛走向工程落地,推理阶段的成本、时延与稳定性逐渐成为制约规模化应用的核心因素。在长上下文、高并发与多模态场景下,解码过程受限于算力与显存带宽,单纯依赖模型压缩或硬件堆叠的优化路径正逼近边际收益,促使业界重新审视推理机制本身的优化空间。

在这一背景下,投机采样(speculative decoding)通过“小模型多步生成 + 大模型并行验证”,在保证生成质量的前提下减少大模型的有效前向计算。腾讯混元近期升级的 angelslim 围绕 eagle3 投机采样训练范式 构建系统化实现,将投机采样提升为可训练、可迁移的加速能力,并扩展至 llm、视觉语言与语音等多模态场景,在实际部署中最高可实现 1.9× 的推理加速,为多模态 ai 的实时化与规模化应用奠定基础。


一、angelslim +投机采样

投机采样是一种通过小模型多步预测 + 大模型一步验证的推理加速技术,其核心思想是:使用一个轻量级的草稿模型生成多个候选 token,由目标模型对候选结果进行并行验证是否接受,以此来并行解码加速,在有效利用大模型解码阶段的算力冗余,提升推理吞吐并降低单请求延迟。

angelslim是一款集成了包括量化、投机采样等压缩算法,面向全模态的大模型压缩算法工具包。此次对投机采样训练进行了重磅升级,支持了大语言、多模态理解、语音等不同模态大模型投机采样草稿模型训练能力。

angelslim 以“eagle3训练即部署”为设计核心,提供从数据处理、模型封装到投机采样算法训练的完整链路,帮助开发在不侵入现有模型结构的前提下,显著降低推理时延与计算成本,各模态、各类大模型加速可达1.4-1.9倍

腾讯AngelSlim重磅升级!面向全模态的大模型压缩算法工具包,推理速度飙升 1.8倍! - 天天要闻

github开源地址:https://github.com/tencent/angelslim


二、核心亮点

1.覆盖从文生文、多模态理解到语音的全模态投机采样训练

angelslim是一个从设计之初就支持全模态的投机采样训练框架,通过统一的训练接口,不同模态之间共享核心算法与工程能力,避免

重复造轮子。


2.面向部署

angelslim 并不止步于“能训”,而是强调训出来就能用。angelslim训练产出的模型可以无缝用于vllm/sglang等框架进行部署。


三、核心训练组件解析


腾讯AngelSlim重磅升级!面向全模态的大模型压缩算法工具包,推理速度飙升 1.8倍! - 天天要闻

1.数据处理模块

腾讯AngelSlim重磅升级!面向全模态的大模型压缩算法工具包,推理速度飙升 1.8倍! - 天天要闻

数据处理模块为投机采样训练多个模态提供稳定、可复用的数据基础,主要包括:

a. 数据重采样:针对分布外数据集重新采样,生成分布内数据集用以训练。

b. 数据预处理:

    i.  统一不同模态的数据格式,将文本、图像、音频等输入标准化处理成token ids和loss mask。

    ii. 草稿模型裁剪词表的映射。

c. 隐藏特征提取:根据处理好的token ids获取对应的隐藏特征。

腾讯AngelSlim重磅升级!面向全模态的大模型压缩算法工具包,推理速度飙升 1.8倍! - 天天要闻

2.模型模块

模型模块是 angelslim 实现高度扩展性的关键。

a.统一的 targetmodel 接口

    i. angelslim提供统一的targetmodel接口,包括模型加载与权重管理、前向计算、中间层 / 隐状态特征提取等抽象方法;

b. 低成本扩展新的模型后端

    ii. 对于新的模型架构或后端,用户只需实现 targetmodel 中定义的抽象方法即可完成模型注册并接入训练流程,无需修改训练器或核心算法代码。这一设计极大降低了对新模型、新模态的适配成本。

腾讯AngelSlim重磅升级!面向全模态的大模型压缩算法工具包,推理速度飙升 1.8倍! - 天天要闻

3.训练器模块

a.训练器针对eagle3算法特点设计了两种训练模式:在线训练和离线训练。在线与离线训练的区别在于是否预先生成并存好全量数据的hidden states。在线训练适合小尺寸模型或显存足够的场景,离线训练适合大尺寸模型、低显存高磁盘空间机器。

b.训练器实现封装了eagle3等投机采样算法训练的关键逻辑:

    i. 训练时测试(training-time-test):训练时模拟eagle3模型多步生成过程,让eagle3模型看到并学习使用自己的预测。

c.训练器原生支持断点续训能力,完整保存并恢复:

    i.草稿模型参数

    ii.optimizer / lr scheduler 状态以及训练进度


四、实践与部署

1.快速开始

当安装好angelslim后,进入angelslim根目录按照如下命令可以快速开始eagle3的训练:

# 启动vllm服务
bash scripts/speculative/run_vllm_server.sh
# 生成训练数据
bash scripts/speculative/generate_data_for_target_model.sh
# 开始在线训练
bash scripts/speculative/train_eagle3_online.sh

其中前两条命令是准备数据,对训练数据进行重采样,生成目标模型分布内的数据。这一步是可选项,如果训练数据已经是来自目标模型的sft数据或自身生成的数据,这一步可跳过。对eagle3模型进行训练直接执行最后一条命令即可。并且我们提供了全面的多模态模型 eagle3 训练与部署指南,支持llm / vlm / audio (asr & tts) ,详见:llm | vlm | audio(asr) | audio(tts)。


2.angelslim训练模型的加速表现

我们使用vllm在代码、数学、指令跟随、文本生成、多模态理解等任务上评测了angelslim所训练的eagle3模型,设置num_speculative_tokens=2 or 4下我们所训的模型接收长度可达1.8-3.5,最高加速可达1.4-1.9倍。

腾讯AngelSlim重磅升级!面向全模态的大模型压缩算法工具包,推理速度飙升 1.8倍! - 天天要闻


3.代码和模型链接

a. angelslim代码github开源仓库:

https://github.com/tencent/angelslim

b. hugging-face eagle3模型与权重:

https://huggingface.co/collections/angelslim/eagle3


五、未来计划

在未来规划中,工具化方面,我们计划支持基于 vllm 的离线 hidden states 生成,以进一步降低数据构建与训练成本,并通过系统性的训练加速优化提升整体训练效率;算法创新方面,将探索多模态理解与语音输入信息在eagle3 模型中的深度融合,统一建模文本、视觉与语音特征,拓展投机采样在全模态场景下的适用性与加速潜力。

科技分类资讯推荐

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相 - 天天要闻

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV,第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴,以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级,兼顾商务体面与家庭舒适,为西北高端用户带来一站式全能出行解决方案。
采购禁入!科华数据材料造假被拒门外 - 天天要闻

采购禁入!科华数据材料造假被拒门外

本报(chinatimes.net.cn)记者胡雅文 北京报道这家赶上AI算力风口的公司,因投标材料造假,被相关采购方列入禁入名单两年,其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告,明确驳回科华数据股份有限公司(下称“科华数据”,002335.SZ)此前提交的复议申请。早在一年前,科华数据已被认定在“信息通信枢纽...
快评乐道L80:15万元级买大五座,这波值得冲? - 天天要闻

快评乐道L80:15万元级买大五座,这波值得冲?

日前,乐道L80正式发布并开启预售,其整车购买预售价为24.58万元起,租电购买预售价则低至15.98万元起。面对大型SUV市场“细分再细分”之竞争趋势,这款乐道年度重磅新车都有哪些优势?又能否成为“大五座SUV革新之作”?下面,圈哥就带大家全方位感受。
成都直击凯威德:纯电全尺寸SUV的张扬与大气 - 天天要闻

成都直击凯威德:纯电全尺寸SUV的张扬与大气

4月22日,凯迪拉克以奥斯卡级盛典规格,将上海保利大剧院点亮为璀璨舞台,在品牌代言人倪妮与全场嘉宾的共同见证下,凯迪拉克全尺寸纯电公路旗舰——凯威德耀然上市。新车共推出长续航四驱Pro、高性能四驱Ultra两款配置,官方售价区间为46.88万-50.88万元。