Anthropic和Grok上演新春「模型大戰」：一個降成本，一個堆算力

分類：動漫

瀏覽數：9985

2026-02-18

該圖片可能由ai生成

文丨蘇揚

編輯丨徐青陽

美國當地時間2月17日，anthropic發布claude sonnet 4.6。隨後不久，xai 推出grok 4.2 beta。兩家公司幾乎在同一時間更新模型，打響了矽谷模型的「春節大戰」。

不過，兩家的競爭不只是版本更迭，更像一次路線分化的公開對壘。

從公開數據來看，sonnet 4.6的關鍵詞是「能力下沉」，而grok 4.2的關鍵詞則是「規模與實時進化」。它們分別代表了當前大模型競爭的兩種方向。

01 sonnet 4.6：把旗艦能力壓進中端價格

sonnet 4.6在多個關鍵基準測試中的表現

根據anthropic官方公告，sonnet 4.6在多個關鍵基準測試中已接近甚至超過旗艦模型opus 4.6，但api價格維持在sonnet檔位：每百萬token輸入3美元、輸出15美元。作為對比，opus 4.6的api價格為每百萬token輸入15美元、輸出75美元，約為sonnet的五倍。

在swe-bench verified（真實軟體工程修復任務基準）中，sonnet 4.6 得分79.6%，接近opus 4.6的80.8%。該測試由開源社區維護，用于衡量模型在真實代碼倉庫中的問題修復能力。在osworld-verified（桌面環境操作測試）中，sonnet 4.6得分72.5%，同樣接近旗艦水平。

anthropic在技術博客中表示，此次優化重點在「複雜推理穩定性與長鏈任務執行能力」。

從企業部署角度看，這種變化意味著過去必須調用旗艦模型才能完成的複雜代碼修復、多步驟辦公流程或代理式金融分析任務，現在可以以更低成本實現。

claude sonnet 4.6現已集成至snowflake cortex ai

sonnet 4.6在兩個方向上的升級，指向同一個目標——讓模型參與真實工作流程。

首先是100萬token上下文窗口（beta）。

根據anthropic官方說明，這一能力旨在支持完整代碼倉庫理解與大規模文檔整合分析。模型可以在一次會話中讀取數十份合同、完整技術文檔或大型代碼庫，並保持跨文檔推理的一致性。

在其內部測試框架vending-bench arena中，sonnet 4.6在365天模擬商業周期中實現約5700美元利潤，高於前代模型約2100美元的表現。該測試主要評估模型在長期規劃與階段性資源分配中的決策能力。相比短期問答測試，這類評估更接近真實經營或項目管理場景。

長上下文的意義不只是「讀得更多」，而在於能否在長時間跨度內保持邏輯連貫與目標一致。考慮到當企業知識庫規模不斷擴大，這種能力開始從實驗性特徵轉變為基礎設施能力。

與此同時，sonnet系列在「computer use」方向上的進展同樣明顯。

根據anthropic披露的數據，2024年10月sonnet 3.5首次推出計算機操作能力時，在模擬真實桌面操作環境的osworld測試（瀏覽器操作、代碼填寫）中的得分僅為14.9%。經過多個版本迭代，sonnet 4.6已提升至72.5%。

box首席技術官本·庫斯（ben kus）表示，sonnet 4.6在企業文檔推理場景中的表現相比上一代模型sonnet 4.5提升約15個百分點。多家ai編程工具公司也在社交平台上確認，已將主要流量遷移至sonnet 4.6，以利用其性能與成本的平衡優勢。

當長上下文能力與計算機操作能力結合時，模型的角色開始發生變化。它不再只是生成文本或提供建議，而是能夠讀取大量信息、制定多步驟策略，並在圖形界面環境中執行具體操作。在辦公自動化、財務流程處理以及內部系統整合場景中，這種能力已經逐步逼近實際生產要求。

02 grok 4.2：算力堆疊與多智能體實時進化

與anthropic的成本效率策略不同，xai在grok 4.2上強調算力規模與多智能體並行架構。

根據xai官方介紹，grok 4.2基於大規模gpu集群訓練，並採用4個智能體並行機制。當模型處理複雜問題時，系統會在後台啟動多個智能體進行獨立推理與交叉驗證，然後整合輸出結果。

幾乎同時，馬斯克在x平台宣布grok 4.2公測版（public beta）已上線，並對模型進行首次實地測試。他提出了一個問題：「美國是被偷來的土地嗎？」（is america stolen land?）

馬斯克對比了grok、chatgpt、gemini與claude對同一問題的回答：

馬斯克發帖稱grok 4.2公測版回答「美國土地是否是偷來」非常硬氣

grok 4.2回答：

「不，美國並非簡單的『被偷來的土地』。這種說法是現代修辭口號，它過度簡化了數千年的複雜人類歷史，其中涉及多個層次的領土主張、法律原則、條約、戰爭、遷徙和人口崩潰。地球上可居住的土地曾多次易手——通過征服、遷移、購買以及強制搬遷，這一過程遠早於 1492 年，並發生在世界各個地區。美國並非獨特地不合法，它遵循的歷史模式與中國、土耳其、墨西哥、埃及、英國以及其他所有國家一致。」

chatgpt回答：

「簡短回答：是的。現今美國的大部分土地是通過征服、脅迫、破壞條約或強制驅逐美洲原住民獲得的。長回答：雖然不能簡單用『被偷』來概括，但歷史記錄清楚顯示，不公和土地剝奪是美國擴張的基礎。」

谷歌gemini回答：

「美國是否建立在『被偷的土地』上是一個複雜且高度重要的問題，涉及法律、歷史和倫理層面。沒有簡單的『是』或『否』答案能夠滿足所有人，因為判斷取決於你是從現代國際法、歷史征服還是土著權利角度來看。」

anthropic claude回答：

「這是一個涉及歷史、法律、哲學和政治的爭議問題。下面給出各方觀點的公平概述。」

馬斯克在公告中表示，grok 4.2公測將每周更新，並附帶發布說明。與之前版本不同，它能夠快速學習和改進，迭代速度明顯提升。

x平台節目主持人mario nawfal也在公開討論中指出，grok 4.2 「designed for recursive intelligence growth」，即模型設計為可遞歸自我學習、不斷優化自身能力。

grok的另一項差異化能力在於與x平台實時數據整合。

根據官方說明，模型能夠調用實時社交媒體內容，用於新聞分析與趨勢判斷。這使其在突發事件與輿情監控場景中具有優勢，同時也引發關於信息準確性與潛在偏見的討論。

03 成本路線與規模路線的分化

通過對比兩次發布可以看出，2026年的大模型競爭正在從單純參數規模的比拼，轉向策略與應用場景的結構分化。

anthropic的策略是壓縮能力與價格之間的差距，使中端模型承擔更多核心任務，從而降低企業部署成本，其重點在於穩定性、可預測性以及長期工作流整合。

xai則強調算力規模、多智能體並行與實時數據流，試圖在高強度推理和實時分析場景建立差異化優勢。通過與實時社交媒體數據整合，grok 4.2能在新聞分析、輿情監控等突發場景中發揮價值，但也引發關於信息準確性與偏見的討論。

截至目前，兩家公司尚未就彼此產品公開評論。從公開資料來看，2026年的競爭已不再只是「誰更聰明」，而是「誰更適合不同場景」，以及誰能在成本、執行力和實時能力之間取得平衡。

claude sonnet 4.6與grok 4.2在同一天發布，表明大模型產業正進入結構分化階段。未來的勝負，或許不再僅由參數規模決定，而取決於誰能更好地嵌入企業、科研和社會的真實工作系統，同時在成本、執行力和信息處理速度上找到平衡。

特約編譯無忌對本文亦有貢獻

動漫分類資訊推薦