今天凌晨,一年一度的 Google I/O 大會在加州山景城盛大開幕了。谷歌憋了好幾周的大招,終於捨得一口氣放出來,直接來了一波信息轟炸。
差評也派出前線小記者,世超不僅看了大會,還近距離接觸了一把谷歌 CEO Sundar Pichai。
逛完一大圈,咱這就帶大傢伙兒實地走進 I/O,看看谷歌都整了哪些新活兒。
總結一下,這次谷歌把能更新的全做了一遍,AI 在各種產品上的應用更是全面開花。
首先迎面向我們走來的是語言模型大軍。
作為谷歌的頭牌之一,自三月發布以來,Gemini 2.5 Pro 的表現一直表現非常出色,在 WebDev Arena 和 LMArena 排行榜處於全球領先的地位。
這回,谷歌在 Gemini 2.5 Pro 的基礎上繼續探索,加入了深度思考模式,推出 Gemini 2.5 Pro Deep Think。
雖然具體的技術細節沒有公布,但從他們放出的這張圖可以看出,能深度思考的 Gemini 2.5 Pro 在數學、編程、多模態推理方面的效果都十分驚人,甚至在數學上碾壓了 OpenAI 的 o3。
有了好模型做支撐,谷歌嘗試在這個基座上再玩點新東西。
他們通過更新 Live API 推出了原生音頻輸出功能,不僅能夠輸出人味十足的聲音,還能捕捉對話的情緒,自動調整語氣。
在 Gemini 的加持下,Live AI 不僅說話的聲音像人,說話的內容、方式也像人。
除此之外,谷歌還優化了側重效率的主力模型 Gemini 2.5 Flash,推出了 AI agent —— Project Mariner。
值得注意的是,除了常規的模型更新,他們還推出了 Gemini Diffusion,不使用 Transformer 架構,表現可以和 Gemini 2.0 Flash-Lite 相當,但速度是它的五倍。
Transformer 架構雖然用了這麼久,但計算成本高,速度慢,苦於沒啥替代手段,大家只好將就用著。
這次谷歌用擴散模型對大模型的底層架構發起挑戰,如果未來 Gemini Diffusion 在表現上還有上升的空間,這可能是一次顛覆性的革新。
大模型說完,再看看多模態生成這邊,花樣就更多了。
Imagen 4、Veo 3、Lyria 2 接連推出,圖片、視頻、音頻生成,谷歌全都要。
從官方的例子可以看出,Imagen 4 遵循提示詞的能力滿分,能生成高達 2k 解析度的圖片,畫面清晰,細節到位。
在 Imagen 3 的基礎上,Imagen 4 的整體圖像質量更高,對指令遵循的能力更強,速度更快。
視頻方面,Veo 3 不僅在 Veo 2 的基礎上質量升級,還是首款帶音頻的視頻模型,不僅自帶對話,如果需要,也可以來點背景音樂。
結合生成的提示詞來看官方的案例,Veo 3 對場景氛圍、對話語氣和人物動作表情的理解都很出色,生成的視頻非常自然。
不得不說,Lyria 2 生成的這段秘魯風格的舞曲,鼓點、電吉他、貝斯相輔相成,節奏明快,旋律流暢,絲毫沒有 AI 痕迹。
目前,Imagen 4 和 Lyria 2 已經在谷歌的 Vertex AI 平台上線,Veo 3 可以加入 waitlist,感興趣的差友可以去體驗一下。
如果說咱上面看過的都屬於零部件,而下面要說的,是谷歌怎麼把這些零件組合起來,融入產品,把 AI 產品賦能體現得淋漓盡致。
首當其衝的,就是谷歌在搜索業務上推出的 AI mode。
自 2022 年 ChatGPT 問世,大模型對谷歌的核心搜索業務來了一輪狂風巨浪的衝擊。
打不過就加入,谷歌這回直接把 Gemini 嵌進傳統搜索,利用大模型的多模態和推理能力,把用戶想要的整理好,直接喂到嘴裡。
AI mode 底層使用谷歌的查詢扇出技術 (query fan-out),可以把問題分解成子主題,同時進行多個查詢,深入互聯網尋找答案。
谷歌表示,加入了 AI 概覽以後,用戶對搜索的內容滿意度更高,使用頻率上升了 10%,這是十年來搜索領域最成功的探索之一。
看來傳統搜索加點 AI,還是能挽回用戶的心的。
除了搜索,谷歌還把多模態生成技術揉一揉,用 Veo + Imagen + Gemini 搓出了一個電影製作工具 Flow。
Flow 可以用 Gemini + Imagen 生成圖像,再用 Gemini + Veo 根據圖像二次創作視頻,還能進行故事續寫。
從官方案例來看,Flow 的畫面表現力確實很優秀。難道失業的風也要吹到導演了嗎。。。
不止軟體更新,摸得著的數碼電子產品也是有的。
谷歌把老項目裸眼 3D Starline 全面升級為 Google Beam,使用六個攝像頭從不同角度捕捉畫面,再利用 AI 演算法把視頻流整合,投射在 3D 顯示屏中。
不過,Google Beam 這次更新最大的亮點還是它的實時翻譯功能。
這項新功能可以讓不同國家的人使用母語通話,即使對方聽不懂你在說啥,他們也能聽到實時生成的翻譯。
還有一個意想不到的產品在這次大會穢土轉生了,那就是谷歌 2023 年已經宣判死刑的 Google Glass。
這回谷歌終於放棄之前那套自己搞硬體的想法,而是只干自己擅長的活兒 —— 系統,然後跟咱們國內的 Xreal 合作,推出了基於 Android XR 平台的最新眼鏡產品:Project Aura。
Android XR 作為下一代計算設備的系統,結合了谷歌這麼些年來在 AI 、VR 和 AR 等方面的技術積累,讓頭顯和眼鏡迎來了 Gemini 時代。
Project Aura 支持 AI 的實時翻譯,還能進行發簡訊操作,識別攝像頭看到的東西做搜索和問答,並且具備記憶能力。
有了谷歌的入場,接下來的智能眼鏡領域應該會有好戲看了。
盤了這麼多,其實這次 Google I/O 的內容還遠遠沒有說完,他們還是太全面了。
除了上面已經提到的,還有編程智能體 Jules、 和 Shopping Graph 結合的一鍵 AI 試衣、Firebase 升級、SynthID 數字水印、可以在手機上跑的大模型 Gemma 3n、辦公可用的 NotebookLM 等等等等。
東西太多,怕大家破產,谷歌還貼心地推出了 Google Ultra 訂閱套餐,每月僅需124.99 刀,Google 全家桶帶回家!
總的來說,一場 I/O 大會,可以看出谷歌作為科技巨頭的野心。
背靠優秀的人才和龐大的資金,谷歌什麼都要做,還要做得好。
他們早就擺脫了當年被大模型降維打擊的被動局面,轉守為攻,可以從容地等待別人去探索市場、試錯,時機成熟後再快速入場,找到自己的節奏。
AI 競賽還在如火如荼地進行,而這次大會,秀的可能不只是當下的技術。想要保住龍頭的地位,更重要的,還有谷歌在 AI 領域的廣闊布局和長遠思考。