智东西
作者 | 王涵
编辑 | 漠影
智东西6月6日消息,谷歌今日突袭推出gemini 2.5 pro的重磅更新版本gemini 2.5 pro preview 06-05 thinking,该版本在推理能力、科学以及编程能力测试中超越openai o3、deepseek r1和claude opus 4,其中编程能力更是领跑aider polyglot等高难度编程基准测试。
价格方面,06-05版本沿用了先前版本的价格策略,即每百万token输入(无缓存)1.25美元(约合人民币9元),输出10美元(约合人民币72元)。
谷歌ceo桑达尔·皮查伊(sundar pichai)在海外社交媒体x上亲自官宣:“我们最新的gemini 2.5 pro更新现已发布预览版……我们听取了您的反馈,并对回答的风格和结构进行了改进。您可以在al studio、vertex al平台和gemini app中进行试用。正式版即将推出!”
一、性能全面屠榜,gemini以1443分登顶webdevarena榜单
在5月年度i/o开发者大会上,谷歌宣布已对gemini 2.5 pro进行静默升级。谷歌deepmind首席执行官戴米斯·哈萨比斯(demis hassabis)当时评价i/o版本是公司迄今最佳编程模型。
而此次名为“gemini 2.5 pro preview 06-05 thinking”的新预览版在05-06版本之上进行的更新,测试表现更优,谷歌在博客中评价该版本为“我们迄今为止最有智慧的模型”。谷歌还透露说,新版本“具备企业级应用成熟度”,将于两周后作为稳定版面世。
gemini 2.5 pro preview 06-05 thinking在基准测试中全面屠榜,文本、视觉、网页开发、编程、数学、创意、多轮对话、指令跟随及长查询类别等能力上均拔得头筹。
综合榜单(来源:lmarena)
有网友在用emoji表情标出了06-05版本的表现对比,可以看出其在测试数学能力的aime 2025、测试代码生成的livecodebench上并未超过o3和o4-mini,视觉推理的mmmu榜单上也未超过o3,仍有进步空间。
且在价格上,06-05版本与榜单中的其他模型相比较为实惠,但仍远高于deepseek r1。
从细分榜单来看,lmarena文本基准测试中,06-05版本的elo分数较05-06版提升24分,以1470分保持榜首。webdevarena测试中,其elo分数以1443分领先,较此前提升了35分。06-05版本也领跑aider polyglot等高难度编程基准测试,超越deepseek r1等一众大模型。
webdevarena榜单(来源:lmarena)
在hle(humanity’s last exam,人类终极测试)中,06-05版本的成绩为21.6%,几乎是claude 4 opus的2倍,gpqa测试的成绩也同样占据榜首。这两个测试是评估数学、科学、知识及推理能力的超高难度测试,06-05版本的亮眼成绩足以说明它的实力。
hle榜单(来源:humanity’s last exam官网)
即刻起,开发者们可以从谷歌ai studio和vertex ai平台接入gemini api体验最新版本,谷歌还在这两个平台上新增了“思考预算”功能,优化成本与延迟控制。同时,新版本也将在gemini应用上逐步推出。
二、gemini新版被玩出花了
06-05版本一经推出就有许多开发者和用户进行体验尝鲜。
首先是图像生成方面,皮查伊自己用gemini生成了一张狮子的特写照片,图片十分生动:
卡通动画风也是不在话下:
编程方面:android studio提示gemini 2.5 pro preview 06-05 thinking创建一个用户个人资料图片,要求包含:android jetpack compose 代码,能够生成类似该用户个人资料图片的代码以及导入语句、material3和代码文档,结果十分惊艳:
有网友要求06-05版本编写一个python程序,模拟随机车流量单行道上的交通信号灯运作过程:
还有网友要求06-05版本编写一个“3d球体”代码来展示它的能力,结果它仅凭一句指令就生成了这个交互式粒子系统,让网友直呼“这不可能是真的!”
结语:大模型进入快迭代时代
此前,deepseek和openai的推理模型曾主导行业关注焦点,智东西不久之前曾报道deepseek-r1-0528开源,其性能接近openai在4月中旬发布的o4 mini和o3模型高版本。谷歌此番更新更是迎头赶上,全面屠榜,基准测试结果超越deepseek r1和openai的o3、o3-mini和o4-mini。
gemini 2.5 pro初代版本于3月发布时,venture beat的马特·马歇尔(matt marshall)就称其为“最被低估的智能模型”。这一评价很快得到验证,凭借2.5 pro及其两个升级版本的快速迭代,谷歌不仅大幅提升了模型的多模态理解、长文本推理和代码生成能力,更在大语言模型性能基准测试中多次超越竞品。
如今大模型的迭代周期越来越短,基准测试榜单的头把交椅也时常易主。ai较量的白热化提醒我们,大模型从一开始的大爆发时代已经进入快迭代时代。