94%任務完成率，商湯Sage讓車載智能體跑出雲端實力

2026年04月23日22:40:14 科技 1533

當全球科技巨頭仍在雲端大模型賽道「重金押注、堆疊算力」時，中國ai企業商湯絕影悄然在另一個戰場投下了一枚「深水炸彈」。

近日，該公司發佈端側多模態智能體基座大模型sage，以「小身材、大能量」的姿態，在一項名為pinchbench的國際權威智能體評測中，以94%的最佳任務完成率，擊敗了包括claude、gpt-5.4、google gemini在內的眾多雲端「巨無霸」模型。

以小博大的效率革命

長久以來，汽車座艙的智能化面臨一個「兩難困境」：依賴雲端，則存在延遲、成本高昂及網絡穩定性問題；而受限於芯片算力，部署在車端本地（端側）的模型，又大多只能進行簡單的指令響應，難以勝任複雜的、多步驟的「智能體」任務。

sage的出現，似乎正在打破這個僵局。這輛「小車」，憑什麼跑贏了「超算」？

根據商湯絕影公布的資料，sage模型的總參數規模為320億，但在處理具體任務時，實際被激活參與運算的參數僅30億。

打個比方，這就像一座擁有龐大圖書館（總參數）的智庫，在面對任何具體問題時，都能瞬間找到最相關的幾本書（激活參數）來高效解答，而非盲目地翻遍整個書庫。

正是這種「精打細算」的效率，讓sage得以在資源有限的車載芯片（如英偉達orin x）上流暢運行。相比之下，某些雲端大模型要達到同樣效果，其激活運算量是sage的14倍甚至更多，好比用大型工業機械與一台高精度機床比賽加工精密零件，後者在特定場景下反而能憑藉「巧勁」勝出。

pinchbench測試恰是檢驗這種「巧勁」的絕佳舞台。這個被業內稱為「龍蝦之父」推薦的評測，不考死記硬背，專測「真本事」。

它的任務庫覆蓋寫作、編程、文件處理、日程規劃等真實工作流，重點考察模型調用工具、分步驟推理、並最終完成複雜任務的能力。sage在此拔得頭籌，意味着其在「辦事」的實戰能力上，已不輸甚至超越了那些需要龐大雲端服務器支持的對手。

從「能聽會說」到「說到做到」

端側模型僅僅「瘦身」是不夠的，要真正「聰明」起來，還需解決學習成本和執行準確性的難題。

為此，商湯為sage配備了兩項核心技術——「高效學習法」（scout）和「實時糾錯本」（erl）。

訓練ai完成一個複雜任務（比如規劃一條整合了充電、餐飲、避開擁堵的跨城路線），如果讓大模型自己反覆試錯，耗時長且計算成本（gpu小時）極高。

scout（分級協同學習框架）便是用來解決「學費」太貴的問題。它的思路是「讓偵察兵先探路」：先派一個輕量級的小模型快速嘗試各種解決方案，把其中可行的路徑篩選出來，再由大模型專註學習這些「高分經驗」。這種方法被稱可將複雜任務的學習成本降低約60%。

erl（可擦除強化學習）則致力於解決「一步錯，步步錯」的執行難題。

假如用戶指示「幫我訂一家明天適合家庭聚餐、有兒童娛樂區、且在我回家順路上的餐廳」，需要模型連續完成多個推理步驟，一旦中間某步理解偏差（如忽略了「順路」），結果就會謬以千里。

erl技術賦予模型「邊想邊改」的能力，能夠自動識別並擦除推理鏈條中的錯誤步驟，重新生成正確邏輯。這項技術讓sage在複雜任務上的完成率提升了20%。

正是這兩項技術的結合，推動sage從一個「語言模型」進化為了能獨立閉環完成任務的「智能體基座」。

重新定義端側ai的想像力

有行業專家認為，sage的亮相，為智能汽車產業帶來了多重變量的思考。

首先，是「艙駕一體」落地路徑的清晰化。高級別自動駕駛與智能座艙的融合（艙駕一體）是行業共識，但融合的底層核心之一，是一個強大、高效且能本地實時處理多模態信息（語音、視覺、傳感器數據）的「大腦」。

sage證明了在現有主流車規級芯片上，部署能處理複雜規劃、具備強推理能力的ai大腦是可行的，這為艙駕一體的量產方案掃清了一個關鍵的技術障礙。

其次，是端側ai價值主張的強化。在隱私敏感、網絡環境複雜（如隧道、山區）、以及需要瞬時響應的車載場景下，本地化能力無可替代。sage的表現意味着端側模型不再是簡化版的雲端附屬，而能獨立提供高質量、高可靠的服務，這或將引發車企在智能化方案上新的權衡。

因此，商湯絕影通過sage模型，演示了一條繞過純算力「軍備競賽」、通過架構與算法創新實現「降維打擊」的路徑。這不僅是技術的進步，更是工程化思維與商業洞察的勝利。當「小車」開始跑贏「超算」，整個智能汽車產業鏈的玩家，或許都需要重新審視手中的技術地圖與競爭策略。

采寫：南都·灣財社記者胡雯雯

雨姐今天做小雞燉大鵝，老香了#東北#生活...