2024年05月15日14:45:30 科技 1558

昨天 OpenAI 針對性地推出 GPT-4o 似乎給到谷歌不少壓力。

儘管當地時間是白天，但谷歌的演講者們似乎都不太有精神，現場反響也不夠熱烈，不管如何，北京時間 5 月 15 日凌晨 1 點，2024 年度谷歌 I/O 開發者大會拉開帷幕。

雖然沒有太驚艷的產品，但勝在「量大管飽」，谷歌推出了一系列以 AI 為核心的產品和服務，覆蓋 AI 模型、AI 搜索、AI 語音助手、AI 晶元等多個方面。

Gemini 迭代升級並亮相家族新成員

首先在模型更新上，谷歌重點圍繞「長上下文窗口」和「多模態」方面，對 Gemini 現有模型進行了升級，同時發布了新的模型。

（來源：Google）

谷歌 1.0 版本 Gemini 被定義為「原生多模態大模型」，可同時識別文本、圖像、音頻、視頻和代碼五種類型信息，還可以理解並生成主流編程語言的高質量代碼。今年 2 月，谷歌推出升級版本 Gemini 1.5 Pro ，其穩定處理上下文窗口達到 100 萬 tokens。作為對照，OpenAI 的 GPT-4 Turbo 只有 12.8 萬 tokens。

之前，Gemini 1.5 Pro 只是作為預覽版推出，現在它正式對所有人開放。此外，它支持的上下文窗口也從 100 萬 tokens 提升到 200 萬 tokens，能夠同時處理 2 小時的視頻、22 小時的音頻、6 萬多行代碼或 140 多萬個字，除了能生成創意文本、代碼外，Gemini 1.5 Pro 還能理解和總結用戶上傳的視頻、音頻等內容。比如，幫助用戶將視頻會議內容進行提煉總結等。

圖｜Gemini 1.5 Pro 模型性能升級（來源：Google）

谷歌首席執行官 Sundar Pichai 在會上表示，目前已經完全進入 Gemini 時代，將會為創造者、開發者、初創企業創造更多的機會，實現多模態的任意格式輸入輸出。

除了對 Gemini 1.5 Pro 的升級，谷歌此次還帶來了 Gemini 家族的新成員 Gemini 1.5 Flash，這是一個為提高速度和效率而推出的輕量級模型，支持多模態，重點優化了響應時間，兼顧快速和成本效益。

谷歌 DeepMind 首席執行官 Demis Hassabis 表示，之所以要開發 Gemini 1.5 Flash，主要是由於開發人員需要一個比 Gemini 1.5 Pro 更輕便、更便宜的 AI 模型。Gemini 1.5 Flash 重點圍繞速度和效率進行了優化，體積更小，速度更快，部署更加靈活，並且支持多模態，該模型擅長摘要、聊天、圖像以及從長文檔和表格中提取數據等。

據官網資料顯示，Gemini 1.5 Flash 通過一個名為「distillation」的過程把 Gemini 1.5 Pro 中最基本的知識和技能轉移到更小的模型上而實現的，其性能介於 Gemini 1.5 Pro 和 Gemini 1.5 Nano 兩個模型之間，擁有與 Gemini 1.5 Pro 相同的多模態功能以及上下文窗口處理能力（100 萬個 tokens），能夠一次分析 1500 頁的文檔或超過 3 萬行的代碼庫。

圖｜Gemini 1.5 Flash（來源：Google）

需要注意的是，Gemini 1.5 Flash 並非面向消費者，它其實是開發人員利用谷歌設計的技術構建自己的 AI 產品和服務的一種更快速、更簡便、更便宜的方式。Sundar Pichai 表示，目前有超過 150 萬開發人員使用谷歌 Gemini 模型，他們使用 Gemini 調試代碼，獲得新見解並構建下一代 AI 應用。

堪稱 Sora 勁敵的谷歌視頻生成模型 Veo 也在會上亮相，能夠根據文本、圖像生成超過 60 秒的高質量高清視頻，並且用戶可以對視頻顏色風格、鏡頭語言以及光照等各項參數進行設定。

Veo 建立在谷歌多年生成視頻模型工作的基礎之上，結合了最好的架構和技術以提高一致性、質量和輸出解析度。用戶可以要求生成真實的景觀鏡頭或時間流逝視頻，並可以使用額外的提示進一步編輯視頻。與 Sora 一樣，Veo 目前只提供給少部分人使用。

谷歌在會上還推出了支持 270 億參數的開源大模型 Gemma 2，計劃將於今年 6 月發布，目前外部開發人員已能夠使用預訓練的 Gemma 變體 PaliGemma。資料顯示，PaliGemma 是 Gemma 家族中的第一款視覺語言模型，針對圖像字幕、視覺問答和其他圖像標記任務進行了優化。

訓練先進的模型離不開算力的加持，Sundar Pichai 指出，過去六年行業對機器學習計算的需求增長了 100 萬倍。谷歌會上推出第六代 TPU（張量處理器）晶元 Trillium，這是谷歌迄今為止性能最強、效率最高的 TPU，計算性能比上一代 TPU v5e 提高了 4.7 倍。

AI 語音助手 Astra

在昨天 OpenAI 主要介紹了新模型加持下的 AI 語音助手後，谷歌在會上也介紹了一款語音助手 Astra（高級視覺和說話響應代理，Advanced Seeing and Talking Responsive Agent）。

Demis Hassabis 表示：「我們的目標是開發出可以在日常生活中提供實際幫助的通用人工智慧代理。Astra 項目凸顯了我們在構建未來 AI 助手方面的努力，特別是在多模態理解和實時對話功能上的成就。」

然而，谷歌並沒有在 AI 語音助手上花費太多篇幅，簡短介紹後用一個視頻做了演示。從視頻上看，谷歌的 AI 語音助手並不像 OpenAI 展示的那般驚艷。兩者雖然都能通過攝像頭與用戶直接語音交互，但谷歌 Astra 在延遲和情感變化上應該是遜於 OpenAI 的。

但 Astra 有一個功能令人印象深刻，它可以記住之前看到的事物，比如，當用戶舉著手機掃過一副眼鏡後，一會兒你問它「眼鏡在哪裡？」，它能準確告訴你。這或許得益於谷歌 AI 模型強大的長文本能力。

此外，Astra 除了會出現在手機上，谷歌也展示了它在眼鏡上的應用，還是值得期待的。

關於 Astra 是如何實現的，谷歌提到，在 Gemini 項目的基礎上，他們開發了一種原型代理，這種代理能夠通過連續編碼視頻幀，將視頻和語音輸入整合到一個事件時間線中，並將這些信息進行緩存，以便有效地召回和處理。這使得代理能夠更迅速地處理信息，提高響應速度。

此外，再利用語音模型增強了 Astra 的聲音處理能力，提供了更多樣化的語調選項。這些改進使得 Astra 能更好地理解其所處的上下文，並能在對話中更加迅速地做出反應。

這聽起來在技術也是比 OpenAI 略差一些。OpenAI 的方式是一切都由一個統一的神經網路完成，通過端到端的方式同時處理文本、視覺和音頻輸入和輸出。

多樣化的谷歌 AI 搜索

谷歌重點講的反而是 AI 搜索，沒等到 OpenAI 的 AI 搜索，谷歌先自我革命發布了一系列 AI 搜索功能。首先是「AI Overviews」，該功能通過 AI 技術搜索相關資料，然後自動整理和概述相關信息，讓用戶能夠迅速掌握核心內容，並附帶鏈接以供深入了解更多細節。

為了能更好地適應和使用，谷歌還即將允許用戶按需調整 AI Overviews 的複雜度，包括使用簡化語言或提供更詳細的解釋。這一功能特別適合對特定主題不太熟悉的用戶，比如初學者或孩子。

值得一提的是，AI Overviews 這種新型搜索方式附帶的鏈接，相比傳統網頁列表，獲得了更多點擊，因此谷歌打算繼續推動這一體驗，並專註於為發布商和創作者帶來有價值的流量。

這樣直接總結相關內容，會不會影響廣告收入？谷歌表示，廣告仍將作為重要的收入來源出現在頁面中，這些廣告將在專門位置清晰地標識出來，以區分自然搜索結果和贊助搜索結果。這種做法保持了用戶體驗的透明度，確保用戶能清楚地識別內容的來源。

「AI Overviews」功能今天開始在美國全面推廣，並計劃很快在其他國家和地區推出。預計本周將有數億美國用戶體驗到這一服務，而到今年年底，全球訪問用戶數有望突破 10 億。

除了「AI Overviews」，谷歌也會進一步推出新的多步驟推理功能。用戶無需將一個複雜的問題拆分成多個單獨的搜索請求，而是可以直接提出包含各種細節和注意事項的複雜問題。定製的 Gemini 模型會深入分析和理解問題的多個層面，將一個大型問題分解為多個部分，進而為用戶提供全面而精確的信息概述，從而簡化搜索過程，提高解決問題的效率和準確性。通過這種方式，原本可能需要幾分鐘甚至幾小時才能完成的研究工作，現在只需幾秒鐘即可得出結果。

同時，谷歌 AI 搜索還能協助用戶制定詳細計劃。這項新增的規劃功能使用戶能直接在搜索界面中制定各種計劃，包括用餐安排和假期規劃等。用戶能夠通過一個簡單的搜索查詢，如「為一組人創建為期三天的簡易餐食計劃」，快速獲得一個包含多種網上食譜的初始餐食計劃。這些結果會按天展示，每一天都包含多個鏈接到具體烹飪網站的食譜卡片。用戶如果對搜索出的餐食計劃中的某些選項不滿意，可以很容易地請求調整，例如將晚餐更換為素食菜品。隨後，搜索功能會根據用戶的新要求定製修改餐食計劃。

新的谷歌搜索還將利用生成式 AI 技術幫助用戶尋找靈感和新想法。當用戶進行搜索以獲取創意或解決方案時，它能夠與用戶集思廣益，自動整理和生成一個易於瀏覽的結果頁面。這個頁面將包含歸類明確的結果，每類結果都配有由 AI 生成的獨特標題，涵蓋廣泛的視角和內容類型。

此外，隨著視頻理解技術的進步，谷歌搜索還允許用戶直接通過視頻來提出問題，這一功能尤其適合那些難以用文字描述的情況。例如，你發現購買的唱片機無法工作，唱針的金屬片有異常漂移，你可能難以找到準確的辭彙來描述這個問題。現在只需上傳關於唱片機的視頻，谷歌搜索將自動解析視頻內容，並提供一個包含故障排除步驟和相關資源的 AI 概述。

除了以上內容，谷歌還進行了諸多細節展示。但總的來說，谷歌在大會上並沒有展示令人十分振奮的產品，更多看到的是，谷歌正在通過「Gemini」這一核心項目，系統地整合和優化其龐大的資源和技術，全面提升其服務生態系統。

但這樣的整合是否能在如今的「AI 大戰」中保持優勢，還需要觀望。而谷歌要想重回在 AI 領域的引領地位，還需要拿出像 OpenAI 那樣令人眼前一亮的產品。當然，谷歌的實力依舊不容小覷，要不然 OpenAI 也不會總是想著搶其風頭，對谷歌形成一種輿論上的壓制。

參考資料：

1.https://io.google/2024/intl/zh/

2.https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

3.https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/

4.https://blog.google/products/gemini/google-gemini-update-may-2024/

5.https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/#gemini-era