新版Gemini 2.5 pro屠榜！谷歌又把o3、Claude 4和DeepSeek-R1甩身後了

分類：科技

瀏覽數：6346

2025-06-07

智東西

作者 | 王涵

編輯 | 漠影

智東西6月6日消息，谷歌今日突襲推出gemini 2.5 pro的重磅更新版本gemini 2.5 pro preview 06-05 thinking，該版本在推理能力、科學以及編程能力測試中超越openai o3、deepseek r1和claude opus 4，其中編程能力更是領跑aider polyglot等高難度編程基準測試。

價格方面，06-05版本沿用了先前版本的價格策略，即每百萬token輸入（無緩存）1.25美元（約合人民幣9元），輸出10美元（約合人民幣72元）。

谷歌ceo桑達爾·皮查伊（sundar pichai）在海外社交媒體x上親自官宣：「我們最新的gemini 2.5 pro更新現已發布預覽版……我們聽取了您的反饋，並對回答的風格和結構進行了改進。您可以在al studio、vertex al平台和gemini app中進行試用。正式版即將推出！」

一、性能全面屠榜，gemini以1443分登頂webdevarena榜單

在5月年度i/o開發者大會上，谷歌宣布已對gemini 2.5 pro進行靜默升級。谷歌deepmind首席執行官戴米斯·哈薩比斯（demis hassabis）當時評價i/o版本是公司迄今最佳編程模型。

而此次名為「gemini 2.5 pro preview 06-05 thinking」的新預覽版在05-06版本之上進行的更新，測試表現更優，谷歌在博客中評價該版本為「我們迄今為止最有智慧的模型」。谷歌還透露說，新版本「具備企業級應用成熟度」，將於兩周後作為穩定版面世。

gemini 2.5 pro preview 06-05 thinking在基準測試中全面屠榜，文本、視覺、網頁開發、編程、數學、創意、多輪對話、指令跟隨及長查詢類別等能力上均拔得頭籌。

綜合榜單（來源：lmarena）

有網友在用emoji表情標出了06-05版本的表現對比，可以看出其在測試數學能力的aime 2025、測試代碼生成的livecodebench上並未超過o3和o4-mini，視覺推理的mmmu榜單上也未超過o3，仍有進步空間。

且在價格上，06-05版本與榜單中的其他模型相比較為實惠，但仍遠高於deepseek r1。

從細分榜單來看，lmarena文本基準測試中，06-05版本的elo分數較05-06版提升24分，以1470分保持榜首。webdevarena測試中，其elo分數以1443分領先，較此前提升了35分。06-05版本也領跑aider polyglot等高難度編程基準測試，超越deepseek r1等一眾大模型。

webdevarena榜單（來源：lmarena）

在hle（humanity』s last exam，人類終極測試）中，06-05版本的成績為21.6%，幾乎是claude 4 opus的2倍，gpqa測試的成績也同樣佔據榜首。這兩個測試是評估數學、科學、知識及推理能力的超高難度測試，06-05版本的亮眼成績足以說明它的實力。

hle榜單（來源：humanity』s last exam官網）

即刻起，開發者們可以從谷歌ai studio和vertex ai平台接入gemini api體驗最新版本，谷歌還在這兩個平台上新增了「思考預算」功能，優化成本與延遲控制。同時，新版本也將在gemini應用上逐步推出。

二、gemini新版被玩出花了

06-05版本一經推出就有許多開發者和用戶進行體驗嘗鮮。

首先是圖像生成方面，皮查伊自己用gemini生成了一張獅子的特寫照片，圖片十分生動：

卡通動畫風也是不在話下：

編程方面：android studio提示gemini 2.5 pro preview 06-05 thinking創建一個用戶個人資料圖片，要求包含：android jetpack compose 代碼，能夠生成類似該用戶個人資料圖片的代碼以及導入語句、material3和代碼文檔，結果十分驚艷：

有網友要求06-05版本編寫一個python程序，模擬隨機車流量單行道上的交通信號燈運作過程：

還有網友要求06-05版本編寫一個「3d球體」代碼來展示它的能力，結果它僅憑一句指令就生成了這個互動式粒子系統，讓網友直呼「這不可能是真的！」

結語：大模型進入快迭代時代

此前，deepseek和openai的推理模型曾主導行業關注焦點，智東西不久之前曾報道deepseek-r1-0528開源，其性能接近openai在4月中旬發布的o4 mini和o3模型高版本。谷歌此番更新更是迎頭趕上，全面屠榜，基準測試結果超越deepseek r1和openai的o3、o3-mini和o4-mini。

gemini 2.5 pro初代版本於3月發布時，venture beat的馬特·馬歇爾（matt marshall）就稱其為「最被低估的智能模型」。這一評價很快得到驗證，憑藉2.5 pro及其兩個升級版本的快速迭代，谷歌不僅大幅提升了模型的多模態理解、長文本推理和代碼生成能力，更在大語言模型性能基準測試中多次超越競品。

如今大模型的迭代周期越來越短，基準測試榜單的頭把交椅也時常易主。ai較量的白熱化提醒我們，大模型從一開始的大爆發時代已經進入快迭代時代。

科技分類資訊推薦