商汤绝影发布端侧多模态智能体基座大模型Sage ,首次将云端级智能体能力落地端侧

2026年04月23日22:42:15 科技 1921

4月22日,商汤绝影正式发布端侧多模态智能体基座大模型Sage。Sage采用MoE架构,总参数量为32B,激活参数仅3B ,是行业内首款在车端实现复杂智能体能力的基座大模型,在PinchBench上性能领跑全球一线云端大模型,已在英伟达Orin X端侧平台实现部署。

AI全面进入智能体时代,而汽车的复杂智能体能力依赖云端,端侧模型受算力与参数限制,仅能实现简单指令响应。智能座舱因此陷入两难,依赖云端则有延迟与高Token成本,坚守端侧则缺失真正智能体能力。Sage的发布打破这一格局,首次将云端级智能体能力落地端侧。

作为端侧智能体基座,Sage可接入 OpenClaw、Hermes等主流Agent框架,为更多端侧智能体落地提供核心支撑,可覆盖出行、家庭等全场景。

Sage的实力,已在国际公开评测中得到印证。在公开Agent评测基准PinchBench中,Sage端侧大模型最佳任务完成率达到94%,超越Claude-Opus-4.6(93.3%)、Claude-Sonnet-4.6(88.0%)、GPT-5.4(90.5%)、Google-Gemini-3(87.0%)、Google-Gemma-4(83.9%)、Qwen3.5-27B(90.0%)、MiniMax-M2.7(89.8%)、MiMo-v2-Pro(87.4%)等国际主流云侧和端侧大模型。

商汤绝影发布端侧多模态智能体基座大模型Sage ,首次将云端级智能体能力落地端侧 - 天天要闻

Sage以仅3B激活的小参数量,超越众多大参数量云侧旗舰,打破 “只有大模型才能做好智能体任务” 的惯性认知。以 小米MiMo-v2-Pro为例,其激活参数为42B、总参数规模超1T,而Sage激活参数仅3B,所需激活算力仅为其1/14;若按模型权重规模近似估算,显存占用约为其1/31,但在PinchBench上的最佳任务完成率仍高出6.6个百分点。

商汤绝影发布端侧多模态智能体基座大模型Sage ,首次将云端级智能体能力落地端侧 - 天天要闻

PinchBench是龙虾之父Peter Steinberger推荐的公开Agent评测基准。作为面向真实Agent工作流的评测榜单,PinchBench不依赖固定不变的静态题库,而是随着公开任务库持续扩充和版本迭代不断演进,其公开任务库覆盖写作、研究、编码、分析、邮件、文件处理、日程管理、记忆与技能调用等典型场景,重点考察模型在工具调用、多步推理和任务闭环执行中的综合能力。

与此同时,PinchBench评测要求模型完成真实任务执行,并综合衡量成功率、速度与成本,因此测试周期更长、资源消耗更高,单任务token消耗就可达数十万量级。正因如此,模型在PinchBench上取得的精度表现,更能体现其在复杂真实场景中的综合能力与稳定性。

在北京车展期间,商汤绝影将正式推出搭载Sage端侧多模态智能体基座大模型的Sage Box,为汽车迈入超级智能体时代筑牢核心根基。

凭借两大黑科技,让座舱从听懂指令”到“说到做到

Sage端侧大模型在PinchBench跑赢一众国际主流云/端大模型背后真正的功臣,是商汤绝影围绕Sage后训练阶段自研的两项关键技术:SCOUT和ERL。

以SCOUT和ERL为核心的后训练技术体系,一项让模型“学得又快又省”,一项让模型“做事不出错”,重点突破智能体在学习效率、训练成本和复杂任务稳定执行上的行业挑战,解决了让车载大模型从“能听懂指令”进化到“能独立办成一件复杂的事”的行业公认难题。

SCOUT:让大模型学复杂任务,省60%算力

SCOUT(Sub-Scale Collaboration On Unseen Tasks,分级协同学习框架) 技术重点解决大模型学习复杂出行场景任务时成本高、试错慢的问题,在复杂任务能力注入过程中可节省约60%的GPU小时消耗。

很多任务涉及空间规划、设备联动、多步决策,直接让大模型自己试错学习,既慢又烧算力。SCOUT的思路是“探路与吸收解耦”——先派一个轻量小模型快速在任务里跑一遍,把走得通的路径筛出来,再把这些高价值经验喂给大模型学习,形成“小模型先探路,大模型再吸收”的学习机制,在降低训练成本的同时,也能够快速掌握更多真实用车场景技能。

ERL:让模型自己擦掉错误步骤,任务成功率提升20%

已被机器学习顶级会议ICLR 2026收录的ERL(Erasable Reinforcement Learning,可擦除强化学习) 技术,聚焦复杂任务链路中的错误识别与纠偏。用户在真实使用中提出的需求,往往需要模型跨多个步骤完成推理和执行,中间一旦某一步出现偏差,整个任务流程就可能失效。

ERL让模型能够自动识别推理过程中的错误步骤,对错误内容进行擦除并重新生成,从源头阻断偏差扩散,就像给模型装上了“边想边纠错”的能力。这项技术让Sage在多跳复杂推理基准上较此前SOTA取得显著提升,装车后Sage在复杂任务上的完成率提升了20%。

SCOUT和ERL两项技术前后协同共同推动Sage从语言大模型演进为能够独立完成复杂任务的智能体。叠加一体化多模态架构与原生训练数据的优势,Sage在能力、成本与量产可行性之间取得了平衡,为打造智能体中枢提供了核心AI支撑。

端侧跑出全球领先能力,Sage定义智能上限

如果说PinchBench94%的任务完成率证明了Sage能“办成复杂的事”,那么真正决定座舱体验的,是模型在各个专业维度上是不是都"够用、够稳、够聪明"。不同能力维度的公开基准上,Sage全面领先本月最新发布的同量级端侧旗舰模型Google-Gemma4,把端侧模型的能力天花板抬到了一个新的水位。

MMLU Pro(跨学科专业知识)测试中,Sage获76分,领先同级端侧模型约10%,证明端侧模型具备云端级通用知识密度;GPQA Diamond(研究生级专业推理)测试中,Sage 获得77分,提升33%,凸显复杂推理深度;Human Semantic Understanding(座舱语义与视觉理解)测试中获91分,提升32%,依托原生数据建立独特优势。

在重点考察任务执行能力的τ2-bench(工具调用与任务闭环)基准上,Sage以80分的成绩相较Gemma 4实现38%的提升,接近翻倍领先。这项基准专门评估模型调用工具、走完多步任务的实战能力,也是区分“会聊天的模型”与“会办事的智能体”的关键分水岭。τ2-bench上近一倍的领先,直接印证了Sage作为端侧智能体基座在真实任务执行环节上的绝对优势。

商汤绝影发布端侧多模态智能体基座大模型Sage ,首次将云端级智能体能力落地端侧 - 天天要闻

从专业基准到场景体验真正“懂场景、会思考、能服务”

这些专业能力落到真实车舱,转化为一组直接影响用户体验的指标:Sage场景推理精度超过90%,长链路工具调用、逻辑规划、环境感知任务成功率分别达92%、89%、94%,复杂指令遵循率提升40%。

在Orin X平台部署下,Sage可实现首字响应(TTFT)约0.5秒、单Token推理延迟(TPOT)低至0.03秒、生成吞吐达到80 tk/S,平均任务时长优于主流API模型,为座舱智能体提供稳定、实时、可持续在线的运行能力。

模型可以一次性解析用户的复合指令,自动联动空调、影音、导航等车载系统完成任务闭环;结合传感器对乘员状态与路况的感知,还能主动提供儿童模式、智能路线调整等服务。

Sage 不再是“被动唤醒、单次响应”的语音助手,而是一个真正懂场景、会思考、能服务的出行伙伴。

商汤绝影Sage端侧多模态智能体基座大模型为舱驾一体方案打通了量产可行的模型路径,打破了技术与落地之间的壁垒,推动智能座舱从基础交互向高阶舱驾融合智能体服务跨越。

科技分类资讯推荐

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相 - 天天要闻

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV,第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴,以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级,兼顾商务体面与家庭舒适,为西北高端用户带来一站式全能出行解决方案。
采购禁入!科华数据材料造假被拒门外 - 天天要闻

采购禁入!科华数据材料造假被拒门外

本报(chinatimes.net.cn)记者胡雅文 北京报道这家赶上AI算力风口的公司,因投标材料造假,被相关采购方列入禁入名单两年,其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告,明确驳回科华数据股份有限公司(下称“科华数据”,002335.SZ)此前提交的复议申请。早在一年前,科华数据已被认定在“信息通信枢纽...
快评乐道L80:15万元级买大五座,这波值得冲? - 天天要闻

快评乐道L80:15万元级买大五座,这波值得冲?

日前,乐道L80正式发布并开启预售,其整车购买预售价为24.58万元起,租电购买预售价则低至15.98万元起。面对大型SUV市场“细分再细分”之竞争趋势,这款乐道年度重磅新车都有哪些优势?又能否成为“大五座SUV革新之作”?下面,圈哥就带大家全方位感受。
成都直击凯威德:纯电全尺寸SUV的张扬与大气 - 天天要闻

成都直击凯威德:纯电全尺寸SUV的张扬与大气

4月22日,凯迪拉克以奥斯卡级盛典规格,将上海保利大剧院点亮为璀璨舞台,在品牌代言人倪妮与全场嘉宾的共同见证下,凯迪拉克全尺寸纯电公路旗舰——凯威德耀然上市。新车共推出长续航四驱Pro、高性能四驱Ultra两款配置,官方售价区间为46.88万-50.88万元。