新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了

2025年06月07日00:30:22 科技 6346

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了 - 天天要聞

智東西

作者 | 王涵

編輯 | 漠影

智東西6月6日消息,谷歌今日突襲推出gemini 2.5 pro的重磅更新版本gemini 2.5 pro preview 06-05 thinking,該版本在推理能力、科學以及編程能力測試中超越openai o3、deepseek r1和claude opus 4,其中編程能力更是領跑aider polyglot等高難度編程基準測試。

價格方面,06-05版本沿用了先前版本的價格策略,即每百萬token輸入(無緩存)1.25美元(約合人民幣9元),輸出10美元(約合人民幣72元)。

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了 - 天天要聞

谷歌ceo桑達爾·皮查伊(sundar pichai)在海外社交媒體x上親自官宣:“我們最新的gemini 2.5 pro更新現已發布預覽版……我們聽取了您的反饋,並對回答的風格和結構進行了改進。您可以在al studio、vertex al平台和gemini app中進行試用。正式版即將推出!”

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了 - 天天要聞

一、性能全面屠榜,gemini以1443分登頂webdevarena榜單

在5月年度i/o開發者大會上,谷歌宣布已對gemini 2.5 pro進行靜默升級。谷歌deepmind首席執行官戴米斯·哈薩比斯(demis hassabis)當時評價i/o版本是公司迄今最佳編程模型。

而此次名為“gemini 2.5 pro preview 06-05 thinking”的新預覽版在05-06版本之上進行的更新,測試表現更優,谷歌在博客中評價該版本為“我們迄今為止最有智慧的模型”。谷歌還透露說,新版本“具備企業級應用成熟度”,將於兩周後作為穩定版面世。

gemini 2.5 pro preview 06-05 thinking在基準測試中全面屠榜,文本、視覺、網頁開發、編程、數學、創意、多輪對話、指令跟隨及長查詢類別等能力上均拔得頭籌。

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了 - 天天要聞

綜合榜單(來源:lmarena)

有網友在用emoji表情標出了06-05版本的表現對比,可以看出其在測試數學能力的aime 2025、測試代碼生成的livecodebench上並未超過o3和o4-mini,視覺推理的mmmu榜單上也未超過o3,仍有進步空間。

且在價格上,06-05版本與榜單中的其他模型相比較為實惠,但仍遠高於deepseek r1

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了 - 天天要聞

從細分榜單來看,lmarena文本基準測試中,06-05版本的elo分數較05-06版提升24分,以1470分保持榜首。webdevarena測試中,其elo分數以1443分領先,較此前提升了35分。06-05版本也領跑aider polyglot等高難度編程基準測試,超越deepseek r1等一眾大模型。

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了 - 天天要聞

webdevarena榜單(來源:lmarena)

在hle(humanity’s last exam,人類終極測試)中,06-05版本的成績為21.6%,幾乎是claude 4 opus的2倍,gpqa測試的成績也同樣佔據榜首。這兩個測試是評估數學、科學、知識及推理能力的超高難度測試,06-05版本的亮眼成績足以說明它的實力。

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了 - 天天要聞

hle榜單(來源:humanity’s last exam官網)

即刻起,開發者們可以從谷歌ai studio和vertex ai平台接入gemini api體驗最新版本,谷歌還在這兩個平台上新增了“思考預算”功能,優化成本與延遲控制。同時,新版本也將在gemini應用上逐步推出。

二、gemini新版被玩出花了

06-05版本一經推出就有許多開發者和用戶進行體驗嘗鮮。

首先是圖像生成方面,皮查伊自己用gemini生成了一張獅子的特寫照片,圖片十分生動:

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了 - 天天要聞

卡通動畫風也是不在話下:

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了 - 天天要聞

編程方面:android studio提示gemini 2.5 pro preview 06-05 thinking創建一個用戶個人資料圖片,要求包含:android jetpack compose 代碼,能夠生成類似該用戶個人資料圖片的代碼以及導入語句、material3和代碼文檔,結果十分驚艷:

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了 - 天天要聞

有網友要求06-05版本編寫一個python程序,模擬隨機車流量單行道上的交通信號燈運作過程:

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身後了 - 天天要聞

還有網友要求06-05版本編寫一個“3d球體”代碼來展示它的能力,結果它僅憑一句指令就生成了這個交互式粒子系統,讓網友直呼“這不可能是真的!”

結語:大模型進入快迭代時代

此前,deepseek和openai的推理模型曾主導行業關注焦點,智東西不久之前曾報道deepseek-r1-0528開源,其性能接近openai在4月中旬發布的o4 mini和o3模型高版本。谷歌此番更新更是迎頭趕上,全面屠榜,基準測試結果超越deepseek r1和openai的o3、o3-mini和o4-mini。

gemini 2.5 pro初代版本於3月發布時,venture beat的馬特·馬歇爾(matt marshall)就稱其為“最被低估的智能模型”。這一評價很快得到驗證,憑藉2.5 pro及其兩個升級版本的快速迭代,谷歌不僅大幅提升了模型的多模態理解、長文本推理和代碼生成能力,更在大語言模型性能基準測試中多次超越競品。

如今大模型的迭代周期越來越短,基準測試榜單的頭把交椅也時常易主。ai較量的白熱化提醒我們,大模型從一開始的大爆發時代已經進入快迭代時代。

科技分類資訊推薦

周鴻禕:準備幹掉360整個市場部,一個人完成一場完整的新產品發布會 - 天天要聞

周鴻禕:準備幹掉360整個市場部,一個人完成一場完整的新產品發布會

【TechWeb】6月7日消息,360創始人周鴻禕發文稱,準備幹掉360整個市場部,聽起來像天方夜譚,但這次我準備動真格的了。周鴻禕透露,這一想法的背後是:“從今天起,我要做一個挑戰,一個人完成一場完整的新產品發布會。過去干一個發布會這活需要市場部幾十號人,忙活兒大半個月,費時、費力、費錢,還讓我不滿意。這次我自...
小馬和南哥,竟然不聲不響合資成立了一家公司? - 天天要聞

小馬和南哥,竟然不聲不響合資成立了一家公司?

近日,“小馬”和“南哥”合資成立了一家公司——蘇皖軌道交通運營有限公司在南京註冊成立。最近,“蘇超”(即江蘇省城市足球聯賽)可以說是長三角乃至全國最火的話題,全網閱讀與播放量上億次,江蘇13市官方出面,貢獻了“南哥之戰”等網絡熱梗,就連隔壁安徽的“小馬”馬鞍山也來湊熱鬧,打出“只認一個南哥”的大屏廣告...
“安全生產月”這些內容需要了解 - 天天要聞

“安全生產月”這些內容需要了解

5月29日,國務院安委會辦公室、應急管理部在京舉行第24個全國“安全生產月”活動啟動儀式。今年6月的“安全生產月”活動主題為“人人講安全、個個會應急——查找身邊安全隱患”。今年全國“安全生產月”活動要點速覽2025年全國“安全生產月”活動主題宣傳片隱患可能潛藏在生產生活的諸多角落它可能是一灘毫不起眼的油...
凌晨!全球首位QQ第256級用戶誕生,騰訊回應:終身SVIP! - 天天要聞

凌晨!全球首位QQ第256級用戶誕生,騰訊回應:終身SVIP!

騰訊官方公眾號今日發布消息表示,QQ昵稱為“愛芥末”的用戶,成為了全球擁有“時光企鵝”等級圖標的第一人。據悉,這是全球首位QQ第256級用戶。騰訊表示,為感謝這一路的深情陪伴,將給“愛芥末”送出限量版專屬神秘驚喜、終身SVIP會員、多款專屬
連馬雲都想不通!微信支付憑啥逆襲? - 天天要聞

連馬雲都想不通!微信支付憑啥逆襲?

——從社交裂變到場景壟斷,解析支付江湖的終極密碼一、微信支付憑啥能後來居上?十年前支付寶可是老大啊!十年前,支付寶憑藉淘寶的電商根基,幾乎壟斷了移動支付市場。2013年用戶突破3億,交易額衝到9000億,全球第一。那時候微信支付還沒出生呢。
DDR內存繼續漲價,核心受益梳理(精選名單) - 天天要聞

DDR內存繼續漲價,核心受益梳理(精選名單)

一. 價格上漲邏輯 據DigiTimes數據,五月以來,DDR4內存價格持續上行,現貨價格近半月已上漲約50%;漲價背後的深層邏輯包括:(1)供需結構回暖全球DRAM大廠自2024年起實施減產策略,疊加數據中心等下游需求爆發,市場供需結構發
魅族Note 16 Pro評測:防水耐摔續航久,千元價位也有越級體驗 - 天天要聞

魅族Note 16 Pro評測:防水耐摔續航久,千元價位也有越級體驗

對於千元機來說,流暢、耐用、電池大是不少用戶優先考量的標準。廠商們也在這一品類上持續發力,為千元的產品帶來了堪比高端旗艦的使用體驗。帶着“國民手機”的願景打造的魅族Note16 Pro正是如此,在千元價位它將為用戶帶來哪些使用體驗呢?今天我們就來了解一番。 外觀設計高端有質感 魅族Note 16 Pro共有三款配色,分別...
這次真的要支棱起來! 華為Pura80或將重回影像巔峰 - 天天要聞

這次真的要支棱起來! 華為Pura80或將重回影像巔峰

你有多久沒有看過華為在影像方面高光時刻了?自Mate50系列後因供應鏈受限跌落神壇,Pura70系列又因算法調校爭議被群嘲,華為影像似乎陷入了長達兩三年的低谷,隱隱有着要墊底的意思,但這次Pura80系列似乎真的要站起來了。