
當全球科技巨頭仍在雲端大模型賽道「重金押注、堆疊算力」時,中國ai企業商湯絕影悄然在另一個戰場投下了一枚「深水炸彈」。
近日,該公司發佈端側多模態智能體基座大模型sage,以「小身材、大能量」的姿態,在一項名為pinchbench的國際權威智能體評測中,以94%的最佳任務完成率,擊敗了包括claude、gpt-5.4、google gemini在內的眾多雲端「巨無霸」模型。

以小博大的效率革命
長久以來,汽車座艙的智能化面臨一個「兩難困境」:依賴雲端,則存在延遲、成本高昂及網絡穩定性問題;而受限於芯片算力,部署在車端本地(端側)的模型,又大多只能進行簡單的指令響應,難以勝任複雜的、多步驟的「智能體」任務。
sage的出現,似乎正在打破這個僵局。這輛「小車」,憑什麼跑贏了「超算」?
根據商湯絕影公布的資料,sage模型的總參數規模為320億,但在處理具體任務時,實際被激活參與運算的參數僅30億。
打個比方,這就像一座擁有龐大圖書館(總參數)的智庫,在面對任何具體問題時,都能瞬間找到最相關的幾本書(激活參數)來高效解答,而非盲目地翻遍整個書庫。
正是這種「精打細算」的效率,讓sage得以在資源有限的車載芯片(如英偉達orin x)上流暢運行。相比之下,某些雲端大模型要達到同樣效果,其激活運算量是sage的14倍甚至更多,好比用大型工業機械與一台高精度機床比賽加工精密零件,後者在特定場景下反而能憑藉「巧勁」勝出。
pinchbench測試恰是檢驗這種「巧勁」的絕佳舞台。這個被業內稱為「龍蝦之父」推薦的評測,不考死記硬背,專測「真本事」。
它的任務庫覆蓋寫作、編程、文件處理、日程規劃等真實工作流,重點考察模型調用工具、分步驟推理、並最終完成複雜任務的能力。sage在此拔得頭籌,意味着其在「辦事」的實戰能力上,已不輸甚至超越了那些需要龐大雲端服務器支持的對手。
從「能聽會說」到「說到做到」
端側模型僅僅「瘦身」是不夠的,要真正「聰明」起來,還需解決學習成本和執行準確性的難題。
為此,商湯為sage配備了兩項核心技術——「高效學習法」(scout)和「實時糾錯本」(erl)。
訓練ai完成一個複雜任務(比如規劃一條整合了充電、餐飲、避開擁堵的跨城路線),如果讓大模型自己反覆試錯,耗時長且計算成本(gpu小時)極高。
scout(分級協同學習框架)便是用來解決「學費」太貴的問題。它的思路是「讓偵察兵先探路」:先派一個輕量級的小模型快速嘗試各種解決方案,把其中可行的路徑篩選出來,再由大模型專註學習這些「高分經驗」。這種方法被稱可將複雜任務的學習成本降低約60%。
erl(可擦除強化學習) 則致力於解決「一步錯,步步錯」的執行難題。
假如用戶指示「幫我訂一家明天適合家庭聚餐、有兒童娛樂區、且在我回家順路上的餐廳」,需要模型連續完成多個推理步驟,一旦中間某步理解偏差(如忽略了「順路」),結果就會謬以千里。
erl技術賦予模型「邊想邊改」的能力,能夠自動識別並擦除推理鏈條中的錯誤步驟,重新生成正確邏輯。這項技術讓sage在複雜任務上的完成率提升了20%。
正是這兩項技術的結合,推動sage從一個「語言模型」進化為了能獨立閉環完成任務的「智能體基座」。
重新定義端側ai的想像力
有行業專家認為,sage的亮相,為智能汽車產業帶來了多重變量的思考。
首先,是「艙駕一體」落地路徑的清晰化。高級別自動駕駛與智能座艙的融合(艙駕一體)是行業共識,但融合的底層核心之一,是一個強大、高效且能本地實時處理多模態信息(語音、視覺、傳感器數據)的「大腦」。
sage證明了在現有主流車規級芯片上,部署能處理複雜規劃、具備強推理能力的ai大腦是可行的,這為艙駕一體的量產方案掃清了一個關鍵的技術障礙。
其次,是端側ai價值主張的強化。在隱私敏感、網絡環境複雜(如隧道、山區)、以及需要瞬時響應的車載場景下,本地化能力無可替代。sage的表現意味着端側模型不再是簡化版的雲端附屬,而能獨立提供高質量、高可靠的服務,這或將引發車企在智能化方案上新的權衡。
因此,商湯絕影通過sage模型,演示了一條繞過純算力「軍備競賽」、通過架構與算法創新實現「降維打擊」的路徑。這不僅是技術的進步,更是工程化思維與商業洞察的勝利。當「小車」開始跑贏「超算」,整個智能汽車產業鏈的玩家,或許都需要重新審視手中的技術地圖與競爭策略。
采寫:南都·灣財社記者 胡雯雯