該圖片可能由ai生成
文丨蘇揚
編輯丨徐青陽
美國當地時間2月17日,anthropic發布claude sonnet 4.6。隨後不久,xai 推出grok 4.2 beta。兩家公司幾乎在同一時間更新模型,打響了矽谷模型的「春節大戰」。
不過,兩家的競爭不只是版本更迭,更像一次路線分化的公開對壘。
從公開數據來看,sonnet 4.6的關鍵詞是「能力下沉」,而grok 4.2的關鍵詞則是「規模與實時進化」。它們分別代表了當前大模型競爭的兩種方向。
01 sonnet 4.6:把旗艦能力壓進中端價格
根據anthropic官方公告,sonnet 4.6在多個關鍵基準測試中已接近甚至超過旗艦模型opus 4.6,但api價格維持在sonnet檔位:每百萬token輸入3美元、輸出15美元。作為對比,opus 4.6的api價格為每百萬token輸入15美元、輸出75美元,約為sonnet的五倍。
在swe-bench verified(真實軟體工程修復任務基準)中,sonnet 4.6 得分79.6%,接近opus 4.6的80.8%。該測試由開源社區維護,用于衡量模型在真實代碼倉庫中的問題修復能力。在osworld-verified(桌面環境操作測試)中,sonnet 4.6得分72.5%,同樣接近旗艦水平。
anthropic在技術博客中表示,此次優化重點在「複雜推理穩定性與長鏈任務執行能力」。
從企業部署角度看,這種變化意味著過去必須調用旗艦模型才能完成的複雜代碼修復、多步驟辦公流程或代理式金融分析任務,現在可以以更低成本實現。
sonnet 4.6在兩個方向上的升級,指向同一個目標——讓模型參與真實工作流程。
首先是100萬token上下文窗口(beta)。
根據anthropic官方說明,這一能力旨在支持完整代碼倉庫理解與大規模文檔整合分析。模型可以在一次會話中讀取數十份合同、完整技術文檔或大型代碼庫,並保持跨文檔推理的一致性。
在其內部測試框架vending-bench arena中,sonnet 4.6在365天模擬商業周期中實現約5700美元利潤,高於前代模型約2100美元的表現。該測試主要評估模型在長期規劃與階段性資源分配中的決策能力。相比短期問答測試,這類評估更接近真實經營或項目管理場景。
長上下文的意義不只是「讀得更多」,而在於能否在長時間跨度內保持邏輯連貫與目標一致。考慮到當企業知識庫規模不斷擴大,這種能力開始從實驗性特徵轉變為基礎設施能力。
與此同時,sonnet系列在「computer use」方向上的進展同樣明顯。
根據anthropic披露的數據,2024年10月sonnet 3.5首次推出計算機操作能力時,在模擬真實桌面操作環境的osworld測試(瀏覽器操作、代碼填寫)中的得分僅為14.9%。經過多個版本迭代,sonnet 4.6已提升至72.5%。
box首席技術官本·庫斯(ben kus)表示,sonnet 4.6在企業文檔推理場景中的表現相比上一代模型sonnet 4.5提升約15個百分點。多家ai編程工具公司也在社交平台上確認,已將主要流量遷移至sonnet 4.6,以利用其性能與成本的平衡優勢。
當長上下文能力與計算機操作能力結合時,模型的角色開始發生變化。它不再只是生成文本或提供建議,而是能夠讀取大量信息、制定多步驟策略,並在圖形界面環境中執行具體操作。在辦公自動化、財務流程處理以及內部系統整合場景中,這種能力已經逐步逼近實際生產要求。
02 grok 4.2:算力堆疊與多智能體實時進化
與anthropic的成本效率策略不同,xai在grok 4.2上強調算力規模與多智能體並行架構。
根據xai官方介紹,grok 4.2基於大規模gpu集群訓練,並採用4個智能體並行機制。當模型處理複雜問題時,系統會在後台啟動多個智能體進行獨立推理與交叉驗證,然後整合輸出結果。
幾乎同時,馬斯克在x平台宣布grok 4.2公測版(public beta)已上線,並對模型進行首次實地測試。他提出了一個問題:「美國是被偷來的土地嗎?」(is america stolen land?)
馬斯克對比了grok、chatgpt、gemini與claude對同一問題的回答:
grok 4.2回答:
「不,美國並非簡單的『被偷來的土地』。這種說法是現代修辭口號,它過度簡化了數千年的複雜人類歷史,其中涉及多個層次的領土主張、法律原則、條約、戰爭、遷徙和人口崩潰。地球上可居住的土地曾多次易手——通過征服、遷移、購買以及強制搬遷,這一過程遠早於 1492 年,並發生在世界各個地區。美國並非獨特地不合法,它遵循的歷史模式與中國、土耳其、墨西哥、埃及、英國以及其他所有國家一致。」
chatgpt回答:
「簡短回答:是的。現今美國的大部分土地是通過征服、脅迫、破壞條約或強制驅逐美洲原住民獲得的。長回答:雖然不能簡單用『被偷』來概括,但歷史記錄清楚顯示,不公和土地剝奪是美國擴張的基礎。」
谷歌gemini回答:
「美國是否建立在『被偷的土地』上是一個複雜且高度重要的問題,涉及法律、歷史和倫理層面。沒有簡單的『是』或『否』答案能夠滿足所有人,因為判斷取決於你是從現代國際法、歷史征服還是土著權利角度來看。」
anthropic claude回答:
「這是一個涉及歷史、法律、哲學和政治的爭議問題。下面給出各方觀點的公平概述。」
馬斯克在公告中表示,grok 4.2公測將每周更新,並附帶發布說明。與之前版本不同,它能夠快速學習和改進,迭代速度明顯提升。
x平台節目主持人mario nawfal也在公開討論中指出,grok 4.2 「designed for recursive intelligence growth」,即模型設計為可遞歸自我學習、不斷優化自身能力。
grok的另一項差異化能力在於與x平台實時數據整合。
根據官方說明,模型能夠調用實時社交媒體內容,用於新聞分析與趨勢判斷。這使其在突發事件與輿情監控場景中具有優勢,同時也引發關於信息準確性與潛在偏見的討論。
03 成本路線與規模路線的分化
通過對比兩次發布可以看出,2026年的大模型競爭正在從單純參數規模的比拼,轉向策略與應用場景的結構分化。
anthropic的策略是壓縮能力與價格之間的差距,使中端模型承擔更多核心任務,從而降低企業部署成本,其重點在於穩定性、可預測性以及長期工作流整合。
xai則強調算力規模、多智能體並行與實時數據流,試圖在高強度推理和實時分析場景建立差異化優勢。通過與實時社交媒體數據整合,grok 4.2能在新聞分析、輿情監控等突發場景中發揮價值,但也引發關於信息準確性與偏見的討論。
截至目前,兩家公司尚未就彼此產品公開評論。從公開資料來看,2026年的競爭已不再只是「誰更聰明」,而是「誰更適合不同場景」,以及誰能在成本、執行力和實時能力之間取得平衡。
claude sonnet 4.6與grok 4.2在同一天發布,表明大模型產業正進入結構分化階段。未來的勝負,或許不再僅由參數規模決定,而取決於誰能更好地嵌入企業、科研和社會的真實工作系統,同時在成本、執行力和信息處理速度上找到平衡。
特約編譯無忌對本文亦有貢獻