商湯絕影發佈端側多模態智能體基座大模型Sage ,首次將雲端級智能體能力落地端側

2026年04月23日22:42:15 科技 1921

4月22日,商湯絕影正式發佈端側多模態智能體基座大模型Sage。Sage採用MoE架構,總參數量為32B,激活參數僅3B ,是行業內首款在車端實現複雜智能體能力的基座大模型,在PinchBench上性能領跑全球一線雲端大模型,已在英偉達Orin X端側平台實現部署。

AI全面進入智能體時代,而汽車的複雜智能體能力依賴雲端,端側模型受算力與參數限制,僅能實現簡單指令響應。智能座艙因此陷入兩難,依賴雲端則有延遲與高Token成本,堅守端側則缺失真正智能體能力。Sage的發佈打破這一格局,首次將雲端級智能體能力落地端側。

作為端側智能體基座,Sage可接入 OpenClaw、Hermes等主流Agent框架,為更多端側智能體落地提供核心支撐,可覆蓋出行、家庭等全場景。

Sage的實力,已在國際公開評測中得到印證。在公開Agent評測基準PinchBench中,Sage端側大模型最佳任務完成率達到94%,超越Claude-Opus-4.6(93.3%)、Claude-Sonnet-4.6(88.0%)、GPT-5.4(90.5%)、Google-Gemini-3(87.0%)、Google-Gemma-4(83.9%)、Qwen3.5-27B(90.0%)、MiniMax-M2.7(89.8%)、MiMo-v2-Pro(87.4%)等國際主流雲側和端側大模型。

商湯絕影發佈端側多模態智能體基座大模型Sage ,首次將雲端級智能體能力落地端側 - 天天要聞

Sage以僅3B激活的小參數量,超越眾多大參數量雲側旗艦,打破 「只有大模型才能做好智能體任務」 的慣性認知。以 小米MiMo-v2-Pro為例,其激活參數為42B、總參數規模超1T,而Sage激活參數僅3B,所需激活算力僅為其1/14;若按模型權重規模近似估算,顯存佔用約為其1/31,但在PinchBench上的最佳任務完成率仍高出6.6個百分點。

商湯絕影發佈端側多模態智能體基座大模型Sage ,首次將雲端級智能體能力落地端側 - 天天要聞

PinchBench是龍蝦之父Peter Steinberger推薦的公開Agent評測基準。作為面向真實Agent工作流的評測榜單,PinchBench不依賴固定不變的靜態題庫,而是隨着公開任務庫持續擴充和版本迭代不斷演進,其公開任務庫覆蓋寫作、研究、編碼、分析、郵件、文件處理、日程管理、記憶與技能調用等典型場景,重點考察模型在工具調用、多步推理和任務閉環執行中的綜合能力。

與此同時,PinchBench評測要求模型完成真實任務執行,並綜合衡量成功率、速度與成本,因此測試周期更長、資源消耗更高,單任務token消耗就可達數十萬量級。正因如此,模型在PinchBench上取得的精度表現,更能體現其在複雜真實場景中的綜合能力與穩定性。

在北京車展期間,商湯絕影將正式推出搭載Sage端側多模態智能體基座大模型的Sage Box,為汽車邁入超級智能體時代築牢核心根基。

憑藉兩大黑科技,讓座艙從聽懂指令」到「說到做到

Sage端側大模型在PinchBench跑贏一眾國際主流雲/端大模型背後真正的功臣,是商湯絕影圍繞Sage後訓練階段自研的兩項關鍵技術:SCOUT和ERL。

以SCOUT和ERL為核心的後訓練技術體系,一項讓模型「學得又快又省」,一項讓模型「做事不出錯」,重點突破智能體在學習效率、訓練成本和複雜任務穩定執行上的行業挑戰,解決了讓車載大模型從「能聽懂指令」進化到「能獨立辦成一件複雜的事」的行業公認難題。

SCOUT:讓大模型學複雜任務,省60%算力

SCOUT(Sub-Scale Collaboration On Unseen Tasks,分級協同學習框架) 技術重點解決大模型學習複雜出行場景任務時成本高、試錯慢的問題,在複雜任務能力注入過程中可節省約60%的GPU小時消耗。

很多任務涉及空間規劃、設備聯動、多步決策,直接讓大模型自己試錯學習,既慢又燒算力。SCOUT的思路是「探路與吸收解耦」——先派一個輕量小模型快速在任務里跑一遍,把走得通的路徑篩出來,再把這些高價值經驗餵給大模型學習,形成「小模型先探路,大模型再吸收」的學習機制,在降低訓練成本的同時,也能夠快速掌握更多真實用車場景技能。

ERL:讓模型自己擦掉錯誤步驟,任務成功率提升20%

已被機器學習頂級會議ICLR 2026收錄的ERL(Erasable Reinforcement Learning,可擦除強化學習) 技術,聚焦複雜任務鏈路中的錯誤識別與糾偏。用戶在真實使用中提出的需求,往往需要模型跨多個步驟完成推理和執行,中間一旦某一步出現偏差,整個任務流程就可能失效。

ERL讓模型能夠自動識別推理過程中的錯誤步驟,對錯誤內容進行擦除並重新生成,從源頭阻斷偏差擴散,就像給模型裝上了「邊想邊糾錯」的能力。這項技術讓Sage在多跳複雜推理基準上較此前SOTA取得顯著提升,裝車後Sage在複雜任務上的完成率提升了20%。

SCOUT和ERL兩項技術前後協同共同推動Sage從語言大模型演進為能夠獨立完成複雜任務的智能體。疊加一體化多模態架構與原生訓練數據的優勢,Sage在能力、成本與量產可行性之間取得了平衡,為打造智能體中樞提供了核心AI支撐。

端側跑出全球領先能力,Sage定義智能上限

如果說PinchBench94%的任務完成率證明了Sage能「辦成複雜的事」,那麼真正決定座艙體驗的,是模型在各個專業維度上是不是都"夠用、夠穩、夠聰明"。不同能力維度的公開基準上,Sage全面領先本月最新發佈的同量級端側旗艦模型Google-Gemma4,把端側模型的能力天花板抬到了一個新的水位。

MMLU Pro(跨學科專業知識)測試中,Sage獲76分,領先同級端側模型約10%,證明端側模型具備雲端級通用知識密度;GPQA Diamond(研究生級專業推理)測試中,Sage 獲得77分,提升33%,凸顯複雜推理深度;Human Semantic Understanding(座艙語義與視覺理解)測試中獲91分,提升32%,依託原生數據建立獨特優勢。

在重點考察任務執行能力的τ2-bench(工具調用與任務閉環)基準上,Sage以80分的成績相較Gemma 4實現38%的提升,接近翻倍領先。這項基準專門評估模型調用工具、走完多步任務的實戰能力,也是區分「會聊天的模型」與「會辦事的智能體」的關鍵分水嶺。τ2-bench上近一倍的領先,直接印證了Sage作為端側智能體基座在真實任務執行環節上的絕對優勢。

商湯絕影發佈端側多模態智能體基座大模型Sage ,首次將雲端級智能體能力落地端側 - 天天要聞

從專業基準到場景體驗真正「懂場景、會思考、能服務」

這些專業能力落到真實車艙,轉化為一組直接影響用戶體驗的指標:Sage場景推理精度超過90%,長鏈路工具調用、邏輯規劃、環境感知任務成功率分別達92%、89%、94%,複雜指令遵循率提升40%。

在Orin X平台部署下,Sage可實現首字響應(TTFT)約0.5秒、單Token推理延遲(TPOT)低至0.03秒、生成吞吐達到80 tk/S,平均任務時長優於主流API模型,為座艙智能體提供穩定、實時、可持續在線的運行能力。

模型可以一次性解析用戶的複合指令,自動聯動空調、影音、導航等車載系統完成任務閉環;結合傳感器對乘員狀態與路況的感知,還能主動提供兒童模式、智能路線調整等服務。

Sage 不再是「被動喚醒、單次響應」的語音助手,而是一個真正懂場景、會思考、能服務的出行夥伴。

商湯絕影Sage端側多模態智能體基座大模型為艙駕一體方案打通了量產可行的模型路徑,打破了技術與落地之間的壁壘,推動智能座艙從基礎交互向高階艙駕融合智能體服務跨越。

科技分類資訊推薦

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV,第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊,以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級,兼顧商務體面與家庭舒適,為西北高端用戶帶來一站式全能出行解決方案。
採購禁入!科華數據材料造假被拒門外 - 天天要聞

採購禁入!科華數據材料造假被拒門外

本報(chinatimes.net.cn)記者胡雅文 北京報道這家趕上AI算力風口的公司,因投標材料造假,被相關採購方列入禁入名單兩年,其此前提出的複議申請也被正式駁回。相關採購平台近日發佈公告,明確駁回科華數據股份有限公司(下稱「科華數據」,002335.SZ)此前提交的複議申請。早在一年前,科華數據已被認定在「信息通信樞紐...
快評樂道L80:15萬元級買大五座,這波值得沖? - 天天要聞

快評樂道L80:15萬元級買大五座,這波值得沖?

日前,樂道L80正式發佈並開啟預售,其整車購買預售價為24.58萬元起,租電購買預售價則低至15.98萬元起。面對大型SUV市場「細分再細分」之競爭趨勢,這款樂道年度重磅新車都有哪些優勢?又能否成為「大五座SUV革新之作」?下面,圈哥就帶大家全方位感受。
成都直擊凱威德:純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德:純電全尺寸SUV的張揚與大氣

4月22日,凱迪拉克以奧斯卡級盛典規格,將上海保利大劇院點亮為璀璨舞台,在品牌代言人倪妮與全場嘉賓的共同見證下,凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置,官方售價區間為46.88萬-50.88萬元。