商汤绝影发布端侧多模态智能体基座大模型Sage ，首次将云端级智能体能力落地端侧

2026年04月23日22:42:15 科技 1921

4月22日，商汤绝影正式发布端侧多模态智能体基座大模型Sage。Sage采用MoE架构，总参数量为32B，激活参数仅3B ，是行业内首款在车端实现复杂智能体能力的基座大模型，在PinchBench上性能领跑全球一线云端大模型，已在英伟达Orin X端侧平台实现部署。

AI全面进入智能体时代，而汽车的复杂智能体能力依赖云端，端侧模型受算力与参数限制，仅能实现简单指令响应。智能座舱因此陷入两难，依赖云端则有延迟与高Token成本，坚守端侧则缺失真正智能体能力。Sage的发布打破这一格局，首次将云端级智能体能力落地端侧。

作为端侧智能体基座，Sage可接入 OpenClaw、Hermes等主流Agent框架，为更多端侧智能体落地提供核心支撑，可覆盖出行、家庭等全场景。

Sage的实力，已在国际公开评测中得到印证。在公开Agent评测基准PinchBench中，Sage端侧大模型最佳任务完成率达到94%，超越Claude-Opus-4.6（93.3%）、Claude-Sonnet-4.6（88.0%）、GPT-5.4（90.5%）、Google-Gemini-3（87.0%）、Google-Gemma-4（83.9%）、Qwen3.5-27B（90.0%）、MiniMax-M2.7（89.8%）、MiMo-v2-Pro（87.4%）等国际主流云侧和端侧大模型。

商汤绝影发布端侧多模态智能体基座大模型Sage ，首次将云端级智能体能力落地端侧 - 天天要闻

Sage以仅3B激活的小参数量，超越众多大参数量云侧旗舰，打破 “只有大模型才能做好智能体任务” 的惯性认知。以小米MiMo-v2-Pro为例，其激活参数为42B、总参数规模超1T，而Sage激活参数仅3B，所需激活算力仅为其1/14；若按模型权重规模近似估算，显存占用约为其1/31，但在PinchBench上的最佳任务完成率仍高出6.6个百分点。

PinchBench是龙虾之父Peter Steinberger推荐的公开Agent评测基准。作为面向真实Agent工作流的评测榜单，PinchBench不依赖固定不变的静态题库，而是随着公开任务库持续扩充和版本迭代不断演进，其公开任务库覆盖写作、研究、编码、分析、邮件、文件处理、日程管理、记忆与技能调用等典型场景，重点考察模型在工具调用、多步推理和任务闭环执行中的综合能力。

与此同时，PinchBench评测要求模型完成真实任务执行，并综合衡量成功率、速度与成本，因此测试周期更长、资源消耗更高，单任务token消耗就可达数十万量级。正因如此，模型在PinchBench上取得的精度表现，更能体现其在复杂真实场景中的综合能力与稳定性。

在北京车展期间，商汤绝影将正式推出搭载Sage端侧多模态智能体基座大模型的Sage Box，为汽车迈入超级智能体时代筑牢核心根基。

凭借两大黑科技，让座舱从“听懂指令”到“说到做到”

Sage端侧大模型在PinchBench跑赢一众国际主流云/端大模型背后真正的功臣，是商汤绝影围绕Sage后训练阶段自研的两项关键技术：SCOUT和ERL。

以SCOUT和ERL为核心的后训练技术体系，一项让模型“学得又快又省”，一项让模型“做事不出错”，重点突破智能体在学习效率、训练成本和复杂任务稳定执行上的行业挑战，解决了让车载大模型从“能听懂指令”进化到“能独立办成一件复杂的事”的行业公认难题。

SCOUT：让大模型学复杂任务，省60%算力

SCOUT（Sub-Scale Collaboration On Unseen Tasks，分级协同学习框架）技术重点解决大模型学习复杂出行场景任务时成本高、试错慢的问题，在复杂任务能力注入过程中可节省约60%的GPU小时消耗。

很多任务涉及空间规划、设备联动、多步决策，直接让大模型自己试错学习，既慢又烧算力。SCOUT的思路是“探路与吸收解耦”——先派一个轻量小模型快速在任务里跑一遍，把走得通的路径筛出来，再把这些高价值经验喂给大模型学习，形成“小模型先探路，大模型再吸收”的学习机制，在降低训练成本的同时，也能够快速掌握更多真实用车场景技能。

ERL：让模型自己擦掉错误步骤，任务成功率提升20%

已被机器学习顶级会议ICLR 2026收录的ERL（Erasable Reinforcement Learning，可擦除强化学习）技术，聚焦复杂任务链路中的错误识别与纠偏。用户在真实使用中提出的需求，往往需要模型跨多个步骤完成推理和执行，中间一旦某一步出现偏差，整个任务流程就可能失效。

ERL让模型能够自动识别推理过程中的错误步骤，对错误内容进行擦除并重新生成，从源头阻断偏差扩散，就像给模型装上了“边想边纠错”的能力。这项技术让Sage在多跳复杂推理基准上较此前SOTA取得显著提升，装车后Sage在复杂任务上的完成率提升了20%。

SCOUT和ERL两项技术前后协同共同推动Sage从语言大模型演进为能够独立完成复杂任务的智能体。叠加一体化多模态架构与原生训练数据的优势，Sage在能力、成本与量产可行性之间取得了平衡，为打造智能体中枢提供了核心AI支撑。

端侧跑出全球领先能力，Sage定义智能上限

如果说PinchBench94%的任务完成率证明了Sage能“办成复杂的事”，那么真正决定座舱体验的，是模型在各个专业维度上是不是都"够用、够稳、够聪明"。不同能力维度的公开基准上，Sage全面领先本月最新发布的同量级端侧旗舰模型Google-Gemma4，把端侧模型的能力天花板抬到了一个新的水位。

MMLU Pro（跨学科专业知识）测试中，Sage获76分，领先同级端侧模型约10%，证明端侧模型具备云端级通用知识密度；GPQA Diamond（研究生级专业推理）测试中，Sage 获得77分，提升33%，凸显复杂推理深度；Human Semantic Understanding（座舱语义与视觉理解）测试中获91分，提升32%，依托原生数据建立独特优势。

在重点考察任务执行能力的τ2-bench（工具调用与任务闭环）基准上，Sage以80分的成绩相较Gemma 4实现38%的提升，接近翻倍领先。这项基准专门评估模型调用工具、走完多步任务的实战能力，也是区分“会聊天的模型”与“会办事的智能体”的关键分水岭。τ2-bench上近一倍的领先，直接印证了Sage作为端侧智能体基座在真实任务执行环节上的绝对优势。