新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了

智東西

作者 | 王涵

編輯 | 漠影

智東西6月6日消息,谷歌今日突襲推出gemini 2.5 pro的重磅更新版本gemini 2.5 pro preview 06-05 thinking,該版本在推理能力、科學以及編程能力測試中超越openai o3、deepseek r1和claude opus 4,其中編程能力更是領跑aider polyglot等高難度編程基準測試。

價格方面,06-05版本沿用了先前版本的價格策略,即每百萬token輸入(無緩存)1.25美元(約合人民幣9元),輸出10美元(約合人民幣72元)。

谷歌ceo桑達爾·皮查伊(sundar pichai)在海外社交媒體x上親自官宣:「我們最新的gemini 2.5 pro更新現已發布預覽版……我們聽取了您的反饋,並對回答的風格和結構進行了改進。您可以在al studio、vertex al平台和gemini app中進行試用。正式版即將推出!」

一、性能全面屠榜,gemini以1443分登頂webdevarena榜單

在5月年度i/o開發者大會上,谷歌宣布已對gemini 2.5 pro進行靜默升級。谷歌deepmind首席執行官戴米斯·哈薩比斯(demis hassabis)當時評價i/o版本是公司迄今最佳編程模型。

而此次名為「gemini 2.5 pro preview 06-05 thinking」的新預覽版在05-06版本之上進行的更新,測試表現更優,谷歌在博客中評價該版本為「我們迄今為止最有智慧的模型」。谷歌還透露說,新版本「具備企業級應用成熟度」,將於兩周後作為穩定版面世。

gemini 2.5 pro preview 06-05 thinking在基準測試中全面屠榜,文本、視覺、網頁開發、編程、數學、創意、多輪對話、指令跟隨及長查詢類別等能力上均拔得頭籌。

綜合榜單(來源:lmarena)

有網友在用emoji表情標出了06-05版本的表現對比,可以看出其在測試數學能力的aime 2025、測試代碼生成的livecodebench上並未超過o3和o4-mini,視覺推理的mmmu榜單上也未超過o3,仍有進步空間。

且在價格上,06-05版本與榜單中的其他模型相比較為實惠,但仍遠高於deepseek r1。

從細分榜單來看,lmarena文本基準測試中,06-05版本的elo分數較05-06版提升24分,以1470分保持榜首。webdevarena測試中,其elo分數以1443分領先,較此前提升了35分。06-05版本也領跑aider polyglot等高難度編程基準測試,超越deepseek r1等一眾大模型。

webdevarena榜單(來源:lmarena)

在hle(humanity』s last exam,人類終極測試)中,06-05版本的成績為21.6%,幾乎是claude 4 opus的2倍,gpqa測試的成績也同樣佔據榜首。這兩個測試是評估數學、科學、知識及推理能力的超高難度測試,06-05版本的亮眼成績足以說明它的實力。

hle榜單(來源:humanity』s last exam官網)

即刻起,開發者們可以從谷歌ai studio和vertex ai平台接入gemini api體驗最新版本,谷歌還在這兩個平台上新增了「思考預算」功能,優化成本與延遲控制。同時,新版本也將在gemini應用上逐步推出。

二、gemini新版被玩出花了

06-05版本一經推出就有許多開發者和用戶進行體驗嘗鮮。

首先是圖像生成方面,皮查伊自己用gemini生成了一張獅子的特寫照片,圖片十分生動:

卡通動畫風也是不在話下:

編程方面:android studio提示gemini 2.5 pro preview 06-05 thinking創建一個用戶個人資料圖片,要求包含:android jetpack compose 代碼,能夠生成類似該用戶個人資料圖片的代碼以及導入語句、material3和代碼文檔,結果十分驚艷:

有網友要求06-05版本編寫一個python程序,模擬隨機車流量單行道上的交通信號燈運作過程:

還有網友要求06-05版本編寫一個「3d球體」代碼來展示它的能力,結果它僅憑一句指令就生成了這個互動式粒子系統,讓網友直呼「這不可能是真的!」

結語:大模型進入快迭代時代

此前,deepseek和openai的推理模型曾主導行業關注焦點,智東西不久之前曾報道deepseek-r1-0528開源,其性能接近openai在4月中旬發布的o4 mini和o3模型高版本。谷歌此番更新更是迎頭趕上,全面屠榜,基準測試結果超越deepseek r1和openai的o3、o3-mini和o4-mini。

gemini 2.5 pro初代版本於3月發布時,venture beat的馬特·馬歇爾(matt marshall)就稱其為「最被低估的智能模型」。這一評價很快得到驗證,憑藉2.5 pro及其兩個升級版本的快速迭代,谷歌不僅大幅提升了模型的多模態理解、長文本推理和代碼生成能力,更在大語言模型性能基準測試中多次超越競品。

如今大模型的迭代周期越來越短,基準測試榜單的頭把交椅也時常易主。ai較量的白熱化提醒我們,大模型從一開始的大爆發時代已經進入快迭代時代。