谷歌昨日宣布正式發布Gemini 2.5,這是一種新的推理模型,該公司還聲稱這是其迄今為止「最智能的AI模型」。
「Gemini 2.5 模型是思維模型,能夠在做出反應之前通過思維進行推理,從而提高性能和準確性。在人工智慧領域,系統的「推理」能力不僅僅指分類和預測。它指的是分析信息、得出合乎邏輯的結論、結合背景和細微差別並做出明智決策的能力,」谷歌 DeepMind 首席技術官 Koray Kavukcuoglu 在一篇博文中如此寫道。
Gemini 2.0 Flash Thinking是谷歌首個推理模型,而 Gemini 2.5 則在此基礎上改進了基礎模型,並改進了後期訓練。谷歌在公告中透露,未來所有 AI 模型都將內置推理能力。
第一個 Gemini 2.5 模型是 Gemini 2.5 Pro Experimental,它在 LMArena 基準測試中遠遠領先於 OpenAI o3-mini、Claude 3.5 Sonnet 和 DeepSeek R1 等其他推理模型。
它還在 Humanity's Last Exam 上獲得了 18.8% 的分數,這是「由數百名學科專家設計的數據集,旨在捕捉人類知識和推理的前沿」。它還擅長編碼,特別是創建 Web 應用程序和代理應用程序,以及處理代碼轉換。相比之下,OpenAI o3-mini 得分為 14%,DeepSeek R1 得分為 8.6%。
該模型現已在 Google AI Studio 和 Gemini 應用程序中供高級訂閱者使用。谷歌正在努力將其添加到 Vertex AI 中,並將在未來幾周內公布該模型的定價。
在推出時,它提供了 100 萬個令牌上下文窗口,並且該公司正在努力儘快添加 200 萬個令牌上下文窗口。