新版Gemini 2.5 pro屠榜！谷歌又把o3、Claude 4和DeepSeek-R1甩身后了

分类：科技

浏览数：6346

2025-06-07

智东西

作者 | 王涵

编辑 | 漠影

智东西6月6日消息，谷歌今日突袭推出gemini 2.5 pro的重磅更新版本gemini 2.5 pro preview 06-05 thinking，该版本在推理能力、科学以及编程能力测试中超越openai o3、deepseek r1和claude opus 4，其中编程能力更是领跑aider polyglot等高难度编程基准测试。

价格方面，06-05版本沿用了先前版本的价格策略，即每百万token输入（无缓存）1.25美元（约合人民币9元），输出10美元（约合人民币72元）。

谷歌ceo桑达尔·皮查伊（sundar pichai）在海外社交媒体x上亲自官宣：“我们最新的gemini 2.5 pro更新现已发布预览版……我们听取了您的反馈，并对回答的风格和结构进行了改进。您可以在al studio、vertex al平台和gemini app中进行试用。正式版即将推出！”

一、性能全面屠榜，gemini以1443分登顶webdevarena榜单

在5月年度i/o开发者大会上，谷歌宣布已对gemini 2.5 pro进行静默升级。谷歌deepmind首席执行官戴米斯·哈萨比斯（demis hassabis）当时评价i/o版本是公司迄今最佳编程模型。

而此次名为“gemini 2.5 pro preview 06-05 thinking”的新预览版在05-06版本之上进行的更新，测试表现更优，谷歌在博客中评价该版本为“我们迄今为止最有智慧的模型”。谷歌还透露说，新版本“具备企业级应用成熟度”，将于两周后作为稳定版面世。

gemini 2.5 pro preview 06-05 thinking在基准测试中全面屠榜，文本、视觉、网页开发、编程、数学、创意、多轮对话、指令跟随及长查询类别等能力上均拔得头筹。

综合榜单（来源：lmarena）

有网友在用emoji表情标出了06-05版本的表现对比，可以看出其在测试数学能力的aime 2025、测试代码生成的livecodebench上并未超过o3和o4-mini，视觉推理的mmmu榜单上也未超过o3，仍有进步空间。

且在价格上，06-05版本与榜单中的其他模型相比较为实惠，但仍远高于deepseek r1。

从细分榜单来看，lmarena文本基准测试中，06-05版本的elo分数较05-06版提升24分，以1470分保持榜首。webdevarena测试中，其elo分数以1443分领先，较此前提升了35分。06-05版本也领跑aider polyglot等高难度编程基准测试，超越deepseek r1等一众大模型。

webdevarena榜单（来源：lmarena）

在hle（humanity’s last exam，人类终极测试）中，06-05版本的成绩为21.6%，几乎是claude 4 opus的2倍，gpqa测试的成绩也同样占据榜首。这两个测试是评估数学、科学、知识及推理能力的超高难度测试，06-05版本的亮眼成绩足以说明它的实力。

hle榜单（来源：humanity’s last exam官网）

即刻起，开发者们可以从谷歌ai studio和vertex ai平台接入gemini api体验最新版本，谷歌还在这两个平台上新增了“思考预算”功能，优化成本与延迟控制。同时，新版本也将在gemini应用上逐步推出。

二、gemini新版被玩出花了

06-05版本一经推出就有许多开发者和用户进行体验尝鲜。

首先是图像生成方面，皮查伊自己用gemini生成了一张狮子的特写照片，图片十分生动：

卡通动画风也是不在话下：

编程方面：android studio提示gemini 2.5 pro preview 06-05 thinking创建一个用户个人资料图片，要求包含：android jetpack compose 代码，能够生成类似该用户个人资料图片的代码以及导入语句、material3和代码文档，结果十分惊艳：

有网友要求06-05版本编写一个python程序，模拟随机车流量单行道上的交通信号灯运作过程：

还有网友要求06-05版本编写一个“3d球体”代码来展示它的能力，结果它仅凭一句指令就生成了这个交互式粒子系统，让网友直呼“这不可能是真的！”

结语：大模型进入快迭代时代

此前，deepseek和openai的推理模型曾主导行业关注焦点，智东西不久之前曾报道deepseek-r1-0528开源，其性能接近openai在4月中旬发布的o4 mini和o3模型高版本。谷歌此番更新更是迎头赶上，全面屠榜，基准测试结果超越deepseek r1和openai的o3、o3-mini和o4-mini。

gemini 2.5 pro初代版本于3月发布时，venture beat的马特·马歇尔（matt marshall）就称其为“最被低估的智能模型”。这一评价很快得到验证，凭借2.5 pro及其两个升级版本的快速迭代，谷歌不仅大幅提升了模型的多模态理解、长文本推理和代码生成能力，更在大语言模型性能基准测试中多次超越竞品。

如今大模型的迭代周期越来越短，基准测试榜单的头把交椅也时常易主。ai较量的白热化提醒我们，大模型从一开始的大爆发时代已经进入快迭代时代。

科技分类资讯推荐