Anthropic和Grok上演新春「模型大戰」:一個降成本,一個堆算力

2026年02月18日18:50:12 動漫 9985

 該圖片可能由ai生成Anthropic和Grok上演新春「模型大戰」:一個降成本,一個堆算力 - 天天要聞

文丨蘇揚

編輯丨徐青陽

美國當地時間2月17日,anthropic發布claude sonnet 4.6。隨後不久,xai 推出grok 4.2 beta。兩家公司幾乎在同一時間更新模型,打響了矽谷模型的「春節大戰」。

不過,兩家的競爭不只是版本更迭,更像一次路線分化的公開對壘。

從公開數據來看,sonnet 4.6的關鍵詞是「能力下沉」,而grok 4.2的關鍵詞則是「規模與實時進化」。它們分別代表了當前大模型競爭的兩種方向。

01 sonnet 4.6:把旗艦能力壓進中端價格

Anthropic和Grok上演新春「模型大戰」:一個降成本,一個堆算力 - 天天要聞sonnet 4.6在多個關鍵基準測試中的表現

根據anthropic官方公告,sonnet 4.6在多個關鍵基準測試中已接近甚至超過旗艦模型opus 4.6,但api價格維持在sonnet檔位:每百萬token輸入3美元、輸出15美元。作為對比,opus 4.6的api價格為每百萬token輸入15美元、輸出75美元,約為sonnet的五倍。

swe-bench verified(真實軟體工程修復任務基準)中,sonnet 4.6 得分79.6%,接近opus 4.6的80.8%。該測試由開源社區維護,用于衡量模型在真實代碼倉庫中的問題修復能力。在osworld-verified(桌面環境操作測試)中,sonnet 4.6得分72.5%,同樣接近旗艦水平。

anthropic在技術博客中表示,此次優化重點在「複雜推理穩定性與長鏈任務執行能力」。

從企業部署角度看,這種變化意味著過去必須調用旗艦模型才能完成的複雜代碼修復、多步驟辦公流程或代理式金融分析任務,現在可以以更低成本實現。

Anthropic和Grok上演新春「模型大戰」:一個降成本,一個堆算力 - 天天要聞claude sonnet 4.6現已集成至snowflake cortex ai

sonnet 4.6在兩個方向上的升級,指向同一個目標——讓模型參與真實工作流程。

首先是100萬token上下文窗口(beta)。

根據anthropic官方說明,這一能力旨在支持完整代碼倉庫理解與大規模文檔整合分析。模型可以在一次會話中讀取數十份合同、完整技術文檔或大型代碼庫,並保持跨文檔推理的一致性。

在其內部測試框架vending-bench arena中,sonnet 4.6在365天模擬商業周期中實現約5700美元利潤,高於前代模型約2100美元的表現。該測試主要評估模型在長期規劃與階段性資源分配中的決策能力。相比短期問答測試,這類評估更接近真實經營或項目管理場景。

長上下文的意義不只是「讀得更多」,而在於能否在長時間跨度內保持邏輯連貫與目標一致。考慮到當企業知識庫規模不斷擴大,這種能力開始從實驗性特徵轉變為基礎設施能力。

與此同時,sonnet系列在「computer use」方向上的進展同樣明顯。

根據anthropic披露的數據,2024年10月sonnet 3.5首次推出計算機操作能力時,在模擬真實桌面操作環境的osworld測試(瀏覽器操作、代碼填寫)中的得分僅為14.9%。經過多個版本迭代,sonnet 4.6已提升至72.5%。

box首席技術官本·庫斯(ben kus)表示,sonnet 4.6在企業文檔推理場景中的表現相比上一代模型sonnet 4.5提升約15個百分點。多家ai編程工具公司也在社交平台上確認,已將主要流量遷移至sonnet 4.6,以利用其性能與成本的平衡優勢。

當長上下文能力與計算機操作能力結合時,模型的角色開始發生變化。它不再只是生成文本或提供建議,而是能夠讀取大量信息、制定多步驟策略,並在圖形界面環境中執行具體操作。在辦公自動化、財務流程處理以及內部系統整合場景中,這種能力已經逐步逼近實際生產要求。

02 grok 4.2:算力堆疊與多智能體實時進化

與anthropic的成本效率策略不同,xai在grok 4.2上強調算力規模與多智能體並行架構。

根據xai官方介紹,grok 4.2基於大規模gpu集群訓練,並採用4個智能體並行機制。當模型處理複雜問題時,系統會在後台啟動多個智能體進行獨立推理與交叉驗證,然後整合輸出結果。

幾乎同時,馬斯克在x平台宣布grok 4.2公測版(public beta)已上線,並對模型進行首次實地測試。他提出了一個問題:「美國是被偷來的土地嗎?」(is america stolen land?)

馬斯克對比了grok、chatgpt、gemini與claude對同一問題的回答:

Anthropic和Grok上演新春「模型大戰」:一個降成本,一個堆算力 - 天天要聞馬斯克發帖稱grok 4.2公測版回答「美國土地是否是偷來」非常硬氣

grok 4.2回答:

「不,美國並非簡單的『被偷來的土地』。這種說法是現代修辭口號,它過度簡化了數千年的複雜人類歷史,其中涉及多個層次的領土主張、法律原則、條約、戰爭、遷徙和人口崩潰。地球上可居住的土地曾多次易手——通過征服、遷移、購買以及強制搬遷,這一過程遠早於 1492 年,並發生在世界各個地區。美國並非獨特地不合法,它遵循的歷史模式與中國、土耳其、墨西哥、埃及、英國以及其他所有國家一致。」

chatgpt回答:

「簡短回答:是的。現今美國的大部分土地是通過征服、脅迫、破壞條約或強制驅逐美洲原住民獲得的。長回答:雖然不能簡單用『被偷』來概括,但歷史記錄清楚顯示,不公和土地剝奪是美國擴張的基礎。」

谷歌gemini回答:

「美國是否建立在『被偷的土地』上是一個複雜且高度重要的問題,涉及法律、歷史和倫理層面。沒有簡單的『是』或『否』答案能夠滿足所有人,因為判斷取決於你是從現代國際法、歷史征服還是土著權利角度來看。」

anthropic claude回答:

「這是一個涉及歷史、法律、哲學和政治的爭議問題。下面給出各方觀點的公平概述。」

馬斯克在公告中表示,grok 4.2公測將每周更新,並附帶發布說明。與之前版本不同,它能夠快速學習和改進,迭代速度明顯提升。

x平台節目主持人mario nawfal也在公開討論中指出,grok 4.2 「designed for recursive intelligence growth」,即模型設計為可遞歸自我學習、不斷優化自身能力。

grok的另一項差異化能力在於與x平台實時數據整合。

根據官方說明,模型能夠調用實時社交媒體內容,用於新聞分析與趨勢判斷。這使其在突發事件與輿情監控場景中具有優勢,同時也引發關於信息準確性與潛在偏見的討論。

03 成本路線與規模路線的分化

通過對比兩次發布可以看出,2026年的大模型競爭正在從單純參數規模的比拼,轉向策略與應用場景的結構分化。

anthropic的策略是壓縮能力與價格之間的差距,使中端模型承擔更多核心任務,從而降低企業部署成本,其重點在於穩定性、可預測性以及長期工作流整合。

xai則強調算力規模、多智能體並行與實時數據流,試圖在高強度推理和實時分析場景建立差異化優勢。通過與實時社交媒體數據整合,grok 4.2能在新聞分析、輿情監控等突發場景中發揮價值,但也引發關於信息準確性與偏見的討論。

截至目前,兩家公司尚未就彼此產品公開評論。從公開資料來看,2026年的競爭已不再只是「誰更聰明」,而是「誰更適合不同場景」,以及誰能在成本、執行力和實時能力之間取得平衡。

claude sonnet 4.6與grok 4.2在同一天發布,表明大模型產業正進入結構分化階段。未來的勝負,或許不再僅由參數規模決定,而取決於誰能更好地嵌入企業、科研和社會的真實工作系統,同時在成本、執行力和信息處理速度上找到平衡。

特約編譯無忌對本文亦有貢獻

動漫分類資訊推薦

新品首發+限時快閃!不在南法,就在愚園路 - 天天要聞

新品首發+限時快閃!不在南法,就在愚園路

即日起至5月5日,KARL LAGERFELD上海限時快閃在愚園路希華館HOW咖啡廳舉辦,品牌全新2026春夏系列同步首發,為廣大消費者打造了一處兼具時尚審美與閑適體驗的出行目的地。KARL LAGERFELD是由法國設計師、時尚界傳奇人物卡爾·拉格斐於1984年創立的同名品牌,在全球擁有逾500家精品店。品牌以蔚藍海岸為靈感,特別打造「KAR...
匠心傳情!全國勞模艾虎進驛站暖一線 - 天天要聞

匠心傳情!全國勞模艾虎進驛站暖一線

極目新聞記者 高偉通訊員 周志勇 吳光美慶祝「五一」國際勞動節,全國勞動模範艾虎走進松滋城區供電服務站工會愛心驛站,參加國網松滋市供電公司舉辦的勞模宣講進驛站暨「五一」慰問勞動者活動,與環衛工人、城管隊員等一線戶外勞動者代表座談交流,共迎佳節、共學精神、共話成長。座談現場,艾虎結合自身29年紮根松滋山鄉...
探展日誌|馬頭上的「理線器」:一隻蜷腿小熊,專治繩子亂飛 - 天天要聞

探展日誌|馬頭上的「理線器」:一隻蜷腿小熊,專治繩子亂飛

「飾文煥彩——河北古代藝術珍品展」■展期:至5月12日■地點:中國美術館19、20、21號廳■票價:免費兩件西漢銅節約,是馬頭上兼具實用與美觀的部件。「節約」中,「節」為節制,「約」為約束。節約用於繩帶之間的連接,既減少綁紮的繩結數量,又避免繩索相交處的交叉散亂,堪稱古代的「理線器」。節約上飾有憨態可掬的熊...
非法印刷近2000冊《小布頭奇遇記》等少兒讀物!邵陽一黑窩點被端,3人被刑拘 - 天天要聞

非法印刷近2000冊《小布頭奇遇記》等少兒讀物!邵陽一黑窩點被端,3人被刑拘

為嚴厲打擊侵犯知識產權違法犯罪行為,切實維護版權市場秩序和群眾合法權益,近日,湖南省邵陽市公安局北塔分局成功破獲一起涉嫌侵犯著作權案,抓獲3名涉案人員,現場查獲大量盜版出版物。4月24日15時許,北塔公安分局接到線索,北塔區園藝場轄區內一居民房屋內,有人涉嫌非法印刷侵權出版物。接到線索後,治安大隊立即聯合...
非人哉:盤點5隻老鼠,地涌夫人是哪吒義妹,皓紫是九月同學 - 天天要聞

非人哉:盤點5隻老鼠,地涌夫人是哪吒義妹,皓紫是九月同學

《非人哉》漫畫版中,有著五隻老鼠,他們分別是地涌夫人、皓紫、皓紫老公、倉鼠和倉鼠精。其中地涌夫人是哪吒的義妹,皓紫是九月的同學。倉鼠是九月養的寵物,倉鼠精是十一月買的倉鼠成精。具體情況如何?一起來看看。地涌夫人地涌夫人相信大家都不陌生,她是李靖的義女,也是哪吒、金吒和木吒的義妹。本體是金鼻白毛老鼠精...
「小黃魚」公開致歉 - 天天要聞

「小黃魚」公開致歉

5月2日,針對部分互動形式引發爭議一事,葛仙村度假區NPC「小黃魚」通過個人社交媒體賬號發布視頻致歉,他表示今後會用更加得體、有溫度的方式和大家互動。同日,葛仙村度假區發布致歉聲明:近日,我景區NPC「小黃魚」的部分互動形式引發了爭議,對此我們高度重視,並向廣大網友及遊客致以最誠摯的歉意。針對此事,景區決定...
千架無人機、漫天煙花點亮寶山濱江,致敬《葫蘆兄弟》40周年 - 天天要聞

千架無人機、漫天煙花點亮寶山濱江,致敬《葫蘆兄弟》40周年

「吳淞口空中劇場」獻禮五一國際勞動節專場——《葫蘆兄弟》主題「寶山尋寶」煙花無人機表演秀5月1日亮相上海國際郵輪旅遊度假區,表演以千架無人機為筆、漫天煙花為墨,致敬《葫蘆兄弟》40周年。本次演出由上海國際郵輪旅遊度假區與上影元聯合出品,攜手打造 「動畫IP+前沿科技+濱江文旅」的跨界新範式,讓國民童年英雄在...
今天這裡爆增200% - 天天要聞

今天這裡爆增200%

5月2日,2026武漢春季房交會的第三天,來逛展的人群仍是絡繹不絕。「五一也不想去外地旅遊,正好來這裡綜合了解一下樓盤的情況,方便後期置換。」正在武昌區展位了解項目信息的市民韓萍萍說,之前有朋友向她推薦過建發璟玥,她想著正好趁這次五一房交會來看看。這個項目好在哪,記者決定實地探訪親自體驗一下。 房交會上武...
年幼姐弟誤啟動電三輪沖入河中,姐姐獲救兩歲多弟弟不幸溺亡 - 天天要聞

年幼姐弟誤啟動電三輪沖入河中,姐姐獲救兩歲多弟弟不幸溺亡

4月30日下午,河南周口一村莊發生一起悲劇,一名不到3歲的男童溺水不幸身亡。5月1日,男童的父親告訴記者,當時,孩子奶奶將電動三輪車停在河岸邊,準備看下自家田地,他的女兒和兒子站在車的前排玩,不慎擰動了電門,三輪車直接衝到河中,奶奶準備拽住車時也被帶到水中。後在附近村民的幫助下,老人和女兒被救上岸,並無大...
鎮館之寶都有啥?一鍵解鎖臨沂市博物館三大館區 - 天天要聞

鎮館之寶都有啥?一鍵解鎖臨沂市博物館三大館區

「五一」假期,解鎖臨沂市博物館正確逛館姿勢!三大館區各有特色,每一步都踏在歷史的脈絡上,每一件文物都在訴說臨沂的故事。這份詳細攻略,幫你高效打卡、收穫滿滿~北城館區一眼看盡臨沂千年北城館區位於蘭山區蘭陵路10號,作為臨沂地域文化的「百科全書」,這裡有一個通史展加七個專題展以及多個臨時展覽,其中必看鎮館...