新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身后了

2025年06月07日00:30:22 科技 6346

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身后了 - 天天要闻

智东西

作者 | 王涵

编辑 | 漠影

智东西6月6日消息,谷歌今日突袭推出gemini 2.5 pro的重磅更新版本gemini 2.5 pro preview 06-05 thinking,该版本在推理能力、科学以及编程能力测试中超越openai o3、deepseek r1和claude opus 4,其中编程能力更是领跑aider polyglot等高难度编程基准测试。

价格方面,06-05版本沿用了先前版本的价格策略,即每百万token输入(无缓存)1.25美元(约合人民币9元),输出10美元(约合人民币72元)。

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身后了 - 天天要闻

谷歌ceo桑达尔·皮查伊(sundar pichai)在海外社交媒体x上亲自官宣:“我们最新的gemini 2.5 pro更新现已发布预览版……我们听取了您的反馈,并对回答的风格和结构进行了改进。您可以在al studio、vertex al平台和gemini app中进行试用。正式版即将推出!”

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身后了 - 天天要闻

一、性能全面屠榜,gemini以1443分登顶webdevarena榜单

在5月年度i/o开发者大会上,谷歌宣布已对gemini 2.5 pro进行静默升级。谷歌deepmind首席执行官戴米斯·哈萨比斯(demis hassabis)当时评价i/o版本是公司迄今最佳编程模型。

而此次名为“gemini 2.5 pro preview 06-05 thinking”的新预览版在05-06版本之上进行的更新,测试表现更优,谷歌在博客中评价该版本为“我们迄今为止最有智慧的模型”。谷歌还透露说,新版本“具备企业级应用成熟度”,将于两周后作为稳定版面世。

gemini 2.5 pro preview 06-05 thinking在基准测试中全面屠榜,文本、视觉、网页开发、编程、数学、创意、多轮对话、指令跟随及长查询类别等能力上均拔得头筹。

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身后了 - 天天要闻

综合榜单(来源:lmarena)

有网友在用emoji表情标出了06-05版本的表现对比,可以看出其在测试数学能力的aime 2025、测试代码生成的livecodebench上并未超过o3和o4-mini,视觉推理的mmmu榜单上也未超过o3,仍有进步空间。

且在价格上,06-05版本与榜单中的其他模型相比较为实惠,但仍远高于deepseek r1

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身后了 - 天天要闻

从细分榜单来看,lmarena文本基准测试中,06-05版本的elo分数较05-06版提升24分,以1470分保持榜首。webdevarena测试中,其elo分数以1443分领先,较此前提升了35分。06-05版本也领跑aider polyglot等高难度编程基准测试,超越deepseek r1等一众大模型。

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身后了 - 天天要闻

webdevarena榜单(来源:lmarena)

在hle(humanity’s last exam,人类终极测试)中,06-05版本的成绩为21.6%,几乎是claude 4 opus的2倍,gpqa测试的成绩也同样占据榜首。这两个测试是评估数学、科学、知识及推理能力的超高难度测试,06-05版本的亮眼成绩足以说明它的实力。

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身后了 - 天天要闻

hle榜单(来源:humanity’s last exam官网)

即刻起,开发者们可以从谷歌ai studio和vertex ai平台接入gemini api体验最新版本,谷歌还在这两个平台上新增了“思考预算”功能,优化成本与延迟控制。同时,新版本也将在gemini应用上逐步推出。

二、gemini新版被玩出花了

06-05版本一经推出就有许多开发者和用户进行体验尝鲜。

首先是图像生成方面,皮查伊自己用gemini生成了一张狮子的特写照片,图片十分生动:

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身后了 - 天天要闻

卡通动画风也是不在话下:

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身后了 - 天天要闻

编程方面:android studio提示gemini 2.5 pro preview 06-05 thinking创建一个用户个人资料图片,要求包含:android jetpack compose 代码,能够生成类似该用户个人资料图片的代码以及导入语句、material3和代码文档,结果十分惊艳:

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身后了 - 天天要闻

有网友要求06-05版本编写一个python程序,模拟随机车流量单行道上的交通信号灯运作过程:

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩身后了 - 天天要闻

还有网友要求06-05版本编写一个“3d球体”代码来展示它的能力,结果它仅凭一句指令就生成了这个交互式粒子系统,让网友直呼“这不可能是真的!”

结语:大模型进入快迭代时代

此前,deepseek和openai的推理模型曾主导行业关注焦点,智东西不久之前曾报道deepseek-r1-0528开源,其性能接近openai在4月中旬发布的o4 mini和o3模型高版本。谷歌此番更新更是迎头赶上,全面屠榜,基准测试结果超越deepseek r1和openai的o3、o3-mini和o4-mini。

gemini 2.5 pro初代版本于3月发布时,venture beat的马特·马歇尔(matt marshall)就称其为“最被低估的智能模型”。这一评价很快得到验证,凭借2.5 pro及其两个升级版本的快速迭代,谷歌不仅大幅提升了模型的多模态理解、长文本推理和代码生成能力,更在大语言模型性能基准测试中多次超越竞品。

如今大模型的迭代周期越来越短,基准测试榜单的头把交椅也时常易主。ai较量的白热化提醒我们,大模型从一开始的大爆发时代已经进入快迭代时代。

科技分类资讯推荐

周鸿祎:准备干掉360整个市场部,一个人完成一场完整的新产品发布会 - 天天要闻

周鸿祎:准备干掉360整个市场部,一个人完成一场完整的新产品发布会

【TechWeb】6月7日消息,360创始人周鸿祎发文称,准备干掉360整个市场部,听起来像天方夜谭,但这次我准备动真格的了。周鸿祎透露,这一想法的背后是:“从今天起,我要做一个挑战,一个人完成一场完整的新产品发布会。过去干一个发布会这活需要市场部几十号人,忙活儿大半个月,费时、费力、费钱,还让我不满意。这次我自...
小马和南哥,竟然不声不响合资成立了一家公司? - 天天要闻

小马和南哥,竟然不声不响合资成立了一家公司?

近日,“小马”和“南哥”合资成立了一家公司——苏皖轨道交通运营有限公司在南京注册成立。最近,“苏超”(即江苏省城市足球联赛)可以说是长三角乃至全国最火的话题,全网阅读与播放量上亿次,江苏13市官方出面,贡献了“南哥之战”等网络热梗,就连隔壁安徽的“小马”马鞍山也来凑热闹,打出“只认一个南哥”的大屏广告...
“安全生产月”这些内容需要了解 - 天天要闻

“安全生产月”这些内容需要了解

5月29日,国务院安委会办公室、应急管理部在京举行第24个全国“安全生产月”活动启动仪式。今年6月的“安全生产月”活动主题为“人人讲安全、个个会应急——查找身边安全隐患”。今年全国“安全生产月”活动要点速览2025年全国“安全生产月”活动主题宣传片隐患可能潜藏在生产生活的诸多角落它可能是一滩毫不起眼的油...
凌晨!全球首位QQ第256级用户诞生,腾讯回应:终身SVIP! - 天天要闻

凌晨!全球首位QQ第256级用户诞生,腾讯回应:终身SVIP!

腾讯官方公众号今日发布消息表示,QQ昵称为“爱芥末”的用户,成为了全球拥有“时光企鹅”等级图标的第一人。据悉,这是全球首位QQ第256级用户。腾讯表示,为感谢这一路的深情陪伴,将给“爱芥末”送出限量版专属神秘惊喜、终身SVIP会员、多款专属
连马云都想不通!微信支付凭啥逆袭? - 天天要闻

连马云都想不通!微信支付凭啥逆袭?

——从社交裂变到场景垄断,解析支付江湖的终极密码一、微信支付凭啥能后来居上?十年前支付宝可是老大啊!十年前,支付宝凭借淘宝的电商根基,几乎垄断了移动支付市场。2013年用户突破3亿,交易额冲到9000亿,全球第一。那时候微信支付还没出生呢。
DDR内存继续涨价,核心受益梳理(精选名单) - 天天要闻

DDR内存继续涨价,核心受益梳理(精选名单)

一. 价格上涨逻辑 据DigiTimes数据,五月以来,DDR4内存价格持续上行,现货价格近半月已上涨约50%;涨价背后的深层逻辑包括:(1)供需结构回暖全球DRAM大厂自2024年起实施减产策略,叠加数据中心等下游需求爆发,市场供需结构发
魅族Note 16 Pro评测:防水耐摔续航久,千元价位也有越级体验 - 天天要闻

魅族Note 16 Pro评测:防水耐摔续航久,千元价位也有越级体验

对于千元机来说,流畅、耐用、电池大是不少用户优先考量的标准。厂商们也在这一品类上持续发力,为千元的产品带来了堪比高端旗舰的使用体验。带着“国民手机”的愿景打造的魅族Note16 Pro正是如此,在千元价位它将为用户带来哪些使用体验呢?今天我们就来了解一番。 外观设计高端有质感 魅族Note 16 Pro共有三款配色,分别...
这次真的要支棱起来! 华为Pura80或将重回影像巅峰 - 天天要闻

这次真的要支棱起来! 华为Pura80或将重回影像巅峰

你有多久没有看过华为在影像方面高光时刻了?自Mate50系列后因供应链受限跌落神坛,Pura70系列又因算法调校争议被群嘲,华为影像似乎陷入了长达两三年的低谷,隐隐有着要垫底的意思,但这次Pura80系列似乎真的要站起来了。