當地時間5月20日,谷歌2025年度i/o開發者大會展示了ai、多模態模型等最新成果。谷歌ceo皮查伊強調gemini 2.5 pro為最強通用ai模型,將在chrome、搜索及gemini app中推出智能體模式,實現與瀏覽器等軟件交互。谷歌搜索添加ai模式標籤頁,支持長查詢、自動分解意圖並生成結構化答案。
繼微軟之後,谷歌也全面擁抱人工智能(ai)智能體(agent)。在開發者大會上,谷歌宣布要讓智能體全面進駐谷歌的主打業務搜索以及ai助手gemini,並通過gemini與搜索結合,推出全新的ai模式搜索。
當地時間5月20日,谷歌2025年度i/o開發者大會的主題演講展示了在ai、多模態模型、跨設備整合與開發者工具方面的最新成果。從升級後的gemini 2.5 pro模型到智能眼鏡的xr應用,再到ai驅動的搜索與網頁瀏覽體驗。谷歌展現的不僅是模型的性能提升,更是ai從“信息工具”進化為“通用智能體”的進步。
本次發布內容主要包括:
模型:gemini 2.5 pro/flash/deepthink;diffusion;imagine 4;lyria;
應用:gemini app、canvas、chrome助理、ai mode、agent模式;
搜索:ai overview+mode;支持個性化、多步推理、自動執行任務;
創作:flow平台、文本轉圖像、圖像轉視頻、原生音頻合成|
硬件:android xr頭顯、智能眼鏡原型、wearos、車載整合
谷歌最強通用ai模型gemini 2.5 pro
剛開場,登台的alphabet兼谷歌ceo皮查伊(sundar pichai)就強調了gemini的重要性,稱“在谷歌,每天都是gemini季”,并力推新模型gemini 2.5 pro——“迄今為止我們最強大的通用ai模型”。
皮查伊說,自上次i/o大會以來,谷歌已推出十多款模型和20項ai功能,谷歌的發布速度已經是史上最快:
“我們希望儘快將最好的模型和產品交到大家手中,因此我們的發布速度比以往任何時候都快。”
皮查伊透露,gemini 2.5 pro模型已在大語言模型(llm)測評llm arena的所有類別排行榜上名列前茅。gemini是熱門ai代碼編輯器cursor上增長最快的模型。
他介紹,一年來,谷歌系統每月處理的token數量激增,從去年的9.7萬億增加到現在的480萬億,增長將近50倍。gemini的app每月有4億多活躍用戶。
“智能體模式”將上線chrome、搜索及gemini app
皮查伊宣布,谷歌將在chrome瀏覽器、搜索以及gemini的app中推出智能體模式(agent mode)。
智能體可以與瀏覽器和其他軟件進行交互和操作。谷歌研究的ai智能體mariner現在可以同時管理多達10個任務,用戶只需向其展示一次任務,它就會學習該任務,並將經驗用於未來的案例。
智能體模式的實驗版即將向gemini app的訂閱者推出。
皮查伊現場演示gemini app中的智能體模式,要求它幫用戶找公寓。得到指令後,gemini搜索房產網zillow,用電腦調整篩選條件,並使用模型上下文協議mcp預約看房。
皮查伊評價:
“這是一個新興的時代。將研究成果轉化為現實的最佳方式就是讓它真正發揮作用。”
他說,在經用戶許可的情況下,gemini現在可以在各種app中以“私密安全”的方式使用個人信息。
在ai綜述的基礎上,谷歌在搜索引擎中正式推出由gemini2.5模型驅動的ai模式。由於ai的特性,用戶可以向搜索引擎提出更複雜、更難的問題。谷歌表示,現在用戶從搜索引擎中得到的不只是信息,而是智慧。

圖片來源:視頻截圖
未來谷歌還將ai模式與用戶郵箱等個人信息打通,提供個性化的建議。與此同時,同類ai工具中常見的“深度研究”功能也將集成在這個模式中。
同時通過將先進多模態模型和實時對話等功能結合,谷歌也將在今年夏天推出實時影像搜索功能。用戶可以開着攝像頭向ai實時提問。

圖片來源:視頻截圖
谷歌搜索添加ai模式標籤頁支持長達數百字提問
皮查伊稱ai概覽(ai overviews)是谷歌最成功的產品之一,每月有15億用戶在搜索中使用ai概覽,它推動某些類型的查詢增長了10%。這意味着,谷歌提供生成式ai服務的用戶規模超過其他公司。
gemini模型將與谷歌搜索集合。它將通過ai模式(ai mode)增強智能,成為一種強大的新型ai搜索功能,可幫助解答問題。它是搜索中的新標籤頁,也將包含在ai概覽中。
作為全新的搜索功能,ai模式讓用戶可以提出更長、更複雜的查詢。它支持長達數百字的提問、自動分解查詢意圖、並生成結構化答案。該模式當地時間5月20日就上線,作為搜索的新標籤頁形勢,向所有美國的用戶推出。
新版本中,用戶可以:
直接通過自然語言發問,系統會提供摘要式、結構化回答。
與搜索結果進行多輪對話,進一步深入了解相關內容。
獲取圖文並茂的“智能回答卡片”,例如自動整理出旅遊行程、購物建議、編程指南等。
皮查伊稱:“我們正在重新定義搜索的未來。不是找到鏈接,而是直接給出答案。”
谷歌搜索負責人liz reid介紹,ai模式會得到名為deep research的模型加持,谷歌稱之為“深度搜索”(deepsearch)。該模型將通過邏輯搜索結果和高度相關的內容,更好地整理研究主題。
“就像你身邊有一位博學助理。”它還會結合地圖、評論、視頻等生成圖表和推薦內容。
reid說,ai模式將擁有谷歌所有最優秀的ai特性和功能。“隨着時間的推移,我們將逐步將ai模式的許多尖端特性和功能融入核心搜索體驗。”她還說,ai模式現在就將支持ai概覽
谷歌光束、同聲傳譯功能
谷歌光束(google beam):極具未來主義的視頻會議設備,從不同角度捕捉用戶影像,使用ai技術將這些視頻流合併,並在3d光場顯示器上呈現用戶的3d形象,幀率最高可達每秒60幀。首批“谷歌光束”設備將於今年晚些時候通過合作夥伴惠普推出,具體定價尚不清楚。

圖片來源:視頻截圖
同聲傳譯:在谷歌會議軟件google meet中,用戶可以使用不同語言進行實時對話,同時保留原聲的音色、語調和情感表達。目前已經向訂閱用戶開放英語和西班牙語之間的實時翻譯,未來幾周將陸續增加意大利語、德語和葡萄牙語等更多語言。

圖片來源:視頻截圖
此外,ai模式下也將提供購物決策的全流程支持——從“買什麼”到“去哪裡買”一步到位。谷歌也在實驗室中推出虛擬試穿衣服工具,用戶可以上傳一張自己的照片,直觀感受購物車裡的衣服“穿在”自己身上的樣子。

ai視頻生成製作工具flow
這款工具旨在簡化ai生成視頻的創作流程。flow與veo 3視頻生成模型,針對veo 2模型的更多控制功能,以及圖像生成模型imagen 4一同亮相。

通過flow,用戶可以通過文字或圖片素材生成8秒的ai視頻片段,隨後使用flow的場景構建工具將多個片段拼接成完整視頻。
與此同時, veo 3模型不僅生成質量更高、理解提示詞更準確,還能同步生成視頻和音頻,包括不同角色的對話。此外,veo 2將增加相機控制和對象移除等工具,imagen 4在生成圖片時也能準確生成真實文本,而不是一堆亂碼。
推出的安卓xr平台針對一系列ai眼鏡設備
谷歌工程主管shahram izadi介紹稱,除了手機外,未來幾個月里谷歌將會把gemini ai功能拓展至智能手錶、汽車控制台、電視上,以及你的眼鏡上。
izadi介紹稱,谷歌推出的安卓xr平台針對一系列ai眼鏡設備,意味着每個人可能會購買不止一副ai眼鏡。例如看電影或者工作時,你需要更具沉浸感的頭戴式設備;而出行購物時,你會需要輕便的眼鏡提供實時信息。

圖片來源:視頻截圖
安卓xr是谷歌與三星、高通一起開發的平台,自從去年公布項目後,現在已經有數百家軟件開發商為這個平台提供適配。三星的project moohan是第一款安卓xr設備,並將在今年晚些時候開放購買。
谷歌也宣布,與中國ar品牌xreal達成戰略合作,以project aura的名義推出第二款安卓xr設備,也是首款搭載安卓xr平台的ar眼鏡。
來源:紅星新聞等