AI搜索、AI助手、AI晶元、AI模型,谷歌I/O大會帶來Gemini 全家桶

2024年05月15日14:45:30 科技 1558

昨天 OpenAI 針對性地推出 GPT-4o 似乎給到谷歌不少壓力。


儘管當地時間是白天,但谷歌的演講者們似乎都不太有精神,現場反響也不夠熱烈,不管如何,北京時間 5 月 15 日凌晨 1 點,2024 年度谷歌 I/O 開發者大會拉開帷幕。


雖然沒有太驚艷的產品,但勝在「量大管飽」,谷歌推出了一系列以 AI 為核心的產品和服務,覆蓋 AI 模型、AI 搜索、AI 語音助手、AI 晶元等多個方面。


Gemini 迭代升級並亮相家族新成員


首先在模型更新上,谷歌重點圍繞「長上下文窗口」和「多模態」方面,對 Gemini 現有模型進行了升級,同時發布了新的模型。


AI搜索、AI助手、AI晶元、AI模型,谷歌I/O大會帶來Gemini 全家桶 - 天天要聞

(來源:Google)


谷歌 1.0 版本 Gemini 被定義為「原生多模態大模型」,可同時識別文本、圖像、音頻、視頻和代碼五種類型信息,還可以理解並生成主流編程語言的高質量代碼。今年 2 月,谷歌推出升級版本 Gemini 1.5 Pro ,其穩定處理上下文窗口達到 100 萬 tokens。作為對照,OpenAI 的 GPT-4 Turbo 只有 12.8 萬 tokens。


之前,Gemini 1.5 Pro 只是作為預覽版推出,現在它正式對所有人開放。此外,它支持的上下文窗口也從 100 萬 tokens 提升到 200 萬 tokens,能夠同時處理 2 小時的視頻、22 小時的音頻、6 萬多行代碼或 140 多萬個字,除了能生成創意文本、代碼外,Gemini 1.5 Pro 還能理解和總結用戶上傳的視頻、音頻等內容。比如,幫助用戶將視頻會議內容進行提煉總結等。


AI搜索、AI助手、AI晶元、AI模型,谷歌I/O大會帶來Gemini 全家桶 - 天天要聞

圖|Gemini 1.5 Pro 模型性能升級(來源:Google)


谷歌首席執行官 Sundar Pichai 在會上表示,目前已經完全進入 Gemini 時代,將會為創造者、開發者、初創企業創造更多的機會,實現多模態的任意格式輸入輸出。


除了對 Gemini 1.5 Pro 的升級,谷歌此次還帶來了 Gemini 家族的新成員 Gemini 1.5 Flash,這是一個為提高速度和效率而推出的輕量級模型,支持多模態,重點優化了響應時間,兼顧快速和成本效益。


谷歌 DeepMind 首席執行官 Demis Hassabis 表示,之所以要開發 Gemini 1.5 Flash,主要是由於開發人員需要一個比 Gemini 1.5 Pro 更輕便、更便宜的 AI 模型。Gemini 1.5 Flash 重點圍繞速度和效率進行了優化,體積更小,速度更快,部署更加靈活,並且支持多模態,該模型擅長摘要、聊天、圖像以及從長文檔和表格中提取數據等。


據官網資料顯示,Gemini 1.5 Flash 通過一個名為「distillation」的過程把 Gemini 1.5 Pro 中最基本的知識和技能轉移到更小的模型上而實現的,其性能介於 Gemini 1.5 Pro 和 Gemini 1.5 Nano 兩個模型之間,擁有與 Gemini 1.5 Pro 相同的多模態功能以及上下文窗口處理能力(100 萬個 tokens),能夠一次分析 1500 頁的文檔或超過 3 萬行的代碼庫。


AI搜索、AI助手、AI晶元、AI模型,谷歌I/O大會帶來Gemini 全家桶 - 天天要聞

圖|Gemini 1.5 Flash(來源:Google)


需要注意的是,Gemini 1.5 Flash 並非面向消費者,它其實是開發人員利用谷歌設計的技術構建自己的 AI 產品和服務的一種更快速、更簡便、更便宜的方式。Sundar Pichai 表示,目前有超過 150 萬開發人員使用谷歌 Gemini 模型,他們使用 Gemini 調試代碼,獲得新見解並構建下一代 AI 應用。


堪稱 Sora 勁敵的谷歌視頻生成模型 Veo 也在會上亮相,能夠根據文本、圖像生成超過 60 秒的高質量高清視頻,並且用戶可以對視頻顏色風格、鏡頭語言以及光照等各項參數進行設定。


Veo 建立在谷歌多年生成視頻模型工作的基礎之上,結合了最好的架構和技術以提高一致性、質量和輸出解析度。用戶可以要求生成真實的景觀鏡頭或時間流逝視頻,並可以使用額外的提示進一步編輯視頻。與 Sora 一樣,Veo 目前只提供給少部分人使用。


谷歌在會上還推出了支持 270 億參數的開源大模型 Gemma 2,計劃將於今年 6 月發布,目前外部開發人員已能夠使用預訓練的 Gemma 變體 PaliGemma。資料顯示,PaliGemma 是 Gemma 家族中的第一款視覺語言模型,針對圖像字幕、視覺問答和其他圖像標記任務進行了優化。


訓練先進的模型離不開算力的加持,Sundar Pichai 指出,過去六年行業對機器學習計算的需求增長了 100 萬倍。谷歌會上推出第六代 TPU(張量處理器)晶元 Trillium,這是谷歌迄今為止性能最強、效率最高的 TPU,計算性能比上一代 TPU v5e 提高了 4.7 倍


AI 語音助手 Astra


在昨天 OpenAI 主要介紹了新模型加持下的 AI 語音助手後,谷歌在會上也介紹了一款語音助手 Astra(高級視覺和說話響應代理,Advanced Seeing and Talking Responsive Agent)。


Demis Hassabis 表示:「我們的目標是開發出可以在日常生活中提供實際幫助的通用人工智慧代理。Astra 項目凸顯了我們在構建未來 AI 助手方面的努力,特別是在多模態理解和實時對話功能上的成就。」


然而,谷歌並沒有在 AI 語音助手上花費太多篇幅,簡短介紹後用一個視頻做了演示。從視頻上看,谷歌的 AI 語音助手並不像 OpenAI 展示的那般驚艷。兩者雖然都能通過攝像頭與用戶直接語音交互,但谷歌 Astra 在延遲和情感變化上應該是遜於 OpenAI 的。


但 Astra 有一個功能令人印象深刻,它可以記住之前看到的事物,比如,當用戶舉著手機掃過一副眼鏡後 ,一會兒你問它「眼鏡在哪裡?」,它能準確告訴你。這或許得益於谷歌 AI 模型強大的長文本能力。


此外,Astra 除了會出現在手機上,谷歌也展示了它在眼鏡上的應用,還是值得期待的。


關於 Astra 是如何實現的,谷歌提到,在 Gemini 項目的基礎上,他們開發了一種原型代理,這種代理能夠通過連續編碼視頻幀,將視頻和語音輸入整合到一個事件時間線中,並將這些信息進行緩存,以便有效地召回和處理。這使得代理能夠更迅速地處理信息,提高響應速度。


此外,再利用語音模型增強了 Astra 的聲音處理能力,提供了更多樣化的語調選項。這些改進使得 Astra 能更好地理解其所處的上下文,並能在對話中更加迅速地做出反應。


這聽起來在技術也是比 OpenAI 略差一些。OpenAI 的方式是一切都由一個統一的神經網路完成,通過端到端的方式同時處理文本、視覺和音頻輸入和輸出。


多樣化的谷歌 AI 搜索


谷歌重點講的反而是 AI 搜索,沒等到 OpenAI 的 AI 搜索,谷歌先自我革命發布了一系列 AI 搜索功能。首先是「AI Overviews」,該功能通過 AI 技術搜索相關資料,然後自動整理和概述相關信息,讓用戶能夠迅速掌握核心內容,並附帶鏈接以供深入了解更多細節。


為了能更好地適應和使用,谷歌還即將允許用戶按需調整 AI Overviews 的複雜度,包括使用簡化語言或提供更詳細的解釋。這一功能特別適合對特定主題不太熟悉的用戶,比如初學者或孩子。


值得一提的是,AI Overviews 這種新型搜索方式附帶的鏈接,相比傳統網頁列表,獲得了更多點擊,因此谷歌打算繼續推動這一體驗,並專註於為發布商和創作者帶來有價值的流量。


這樣直接總結相關內容,會不會影響廣告收入?谷歌表示,廣告仍將作為重要的收入來源出現在頁面中,這些廣告將在專門位置清晰地標識出來,以區分自然搜索結果和贊助搜索結果。這種做法保持了用戶體驗的透明度,確保用戶能清楚地識別內容的來源。


「AI Overviews」功能今天開始在美國全面推廣,並計劃很快在其他國家和地區推出。預計本周將有數億美國用戶體驗到這一服務,而到今年年底,全球訪問用戶數有望突破 10 億。


除了「AI Overviews」,谷歌也會進一步推出新的多步驟推理功能。用戶無需將一個複雜的問題拆分成多個單獨的搜索請求,而是可以直接提出包含各種細節和注意事項的複雜問題。定製的 Gemini 模型會深入分析和理解問題的多個層面,將一個大型問題分解為多個部分,進而為用戶提供全面而精確的信息概述,從而簡化搜索過程,提高解決問題的效率和準確性。通過這種方式,原本可能需要幾分鐘甚至幾小時才能完成的研究工作,現在只需幾秒鐘即可得出結果。


同時,谷歌 AI 搜索還能協助用戶制定詳細計劃。這項新增的規劃功能使用戶能直接在搜索界面中制定各種計劃,包括用餐安排和假期規劃等。用戶能夠通過一個簡單的搜索查詢,如「為一組人創建為期三天的簡易餐食計劃」,快速獲得一個包含多種網上食譜的初始餐食計劃。這些結果會按天展示,每一天都包含多個鏈接到具體烹飪網站的食譜卡片。用戶如果對搜索出的餐食計劃中的某些選項不滿意,可以很容易地請求調整,例如將晚餐更換為素食菜品。隨後,搜索功能會根據用戶的新要求定製修改餐食計劃。


新的谷歌搜索還將利用生成式 AI 技術幫助用戶尋找靈感和新想法。當用戶進行搜索以獲取創意或解決方案時,它能夠與用戶集思廣益,自動整理和生成一個易於瀏覽的結果頁面。這個頁面將包含歸類明確的結果,每類結果都配有由 AI 生成的獨特標題,涵蓋廣泛的視角和內容類型。


此外,隨著視頻理解技術的進步,谷歌搜索還允許用戶直接通過視頻來提出問題,這一功能尤其適合那些難以用文字描述的情況。例如,你發現購買的唱片機無法工作,唱針的金屬片有異常漂移,你可能難以找到準確的辭彙來描述這個問題。現在只需上傳關於唱片機的視頻,谷歌搜索將自動解析視頻內容,並提供一個包含故障排除步驟和相關資源的 AI 概述。


除了以上內容,谷歌還進行了諸多細節展示。但總的來說,谷歌在大會上並沒有展示令人十分振奮的產品,更多看到的是,谷歌正在通過「Gemini」這一核心項目,系統地整合和優化其龐大的資源和技術,全面提升其服務生態系統。


但這樣的整合是否能在如今的「AI 大戰」中保持優勢,還需要觀望。而谷歌要想重回在 AI 領域的引領地位,還需要拿出像 OpenAI 那樣令人眼前一亮的產品。當然,谷歌的實力依舊不容小覷,要不然 OpenAI 也不會總是想著搶其風頭,對谷歌形成一種輿論上的壓制。


參考資料:

1.https://io.google/2024/intl/zh/

2.https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

3.https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/

4.https://blog.google/products/gemini/google-gemini-update-may-2024/

5.https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/#gemini-era

科技分類資訊推薦

最新消息!她已離職!曾凌晨發文道歉 - 天天要聞

最新消息!她已離職!曾凌晨發文道歉

本月初,百度副總裁璩靜在短視頻平台上發布的幾條出鏡視頻引髮網友關注,特別是其提到「員工鬧分手提離職我秒批」等職場話題引髮網友質疑,一度登上微博熱搜。
淘寶取消「618」預售機制後,京東宣布「現貨開賣」 - 天天要聞

淘寶取消「618」預售機制後,京東宣布「現貨開賣」

繼5月7日天貓宣布取消「618」預售機制後,5月8日,京東也正式宣布「現貨開賣」。今年京東618將於5月31日晚8點全面開啟。據了解,現貨開賣的同時,京東還將同步推出百億補貼日活動。在6月2日、6月3日、6月8日,還將先後推出9.
細思極恐網路暴力和群毆 - 天天要聞

細思極恐網路暴力和群毆

互聯網高速發展利用時代踏實做事和說實話的人都不被人待見,時時刻刻遭受網路暴力,聲討,群毆,格力電器董明珠,踏踏實實做企業,創稅收,促進就業,,為國家為人民奉獻大半輩子青春,心血, 汗水,本該退休安享晚年,侍弄兒孫遺憾找不到合適放心接班人,七
探秘vivo影像之美,與X系列技術溝通會共同見證卓越藍圖 - 天天要聞

探秘vivo影像之美,與X系列技術溝通會共同見證卓越藍圖

前段時間的vivo X系列新品發布讓我們記憶深刻,而剛剛結束結束的「影像新藍圖X系列技術溝通會」也十分精彩,這次溝通會不僅告訴了大家vivo在影像領域的最新成果,也讓粉絲們對vivo影像背後的故事有更多了解,在vivo影像的發展歷程中可以分成兩方面,一方面,vivo通過自主研發,不斷提升自身的影像技術實力,另一方面,vivo...
華為再次亮劍,鴻蒙系統亮點多多 - 天天要聞

華為再次亮劍,鴻蒙系統亮點多多

5月15日,華為夏季全場景新品發布會簡直是一場視覺與科技的盛宴,看得我熱血沸騰!不得不說,華為這次真的是大招頻出,新品多到讓人眼花繚亂!先說說那個華為MatePad 11.5 」 S吧,一亮相就讓人眼前一亮!它的設計簡約而不失時尚,屏幕清晰得讓人彷彿置身其中。
【新機】升級了個寂寞?藍廠新機發布 - 天天要聞

【新機】升級了個寂寞?藍廠新機發布

昨天晚上藍廠發布了新機iQOO Neo9s Pro,機子採用了6.78英寸1.5K 8T LTPO直面屏,支持144Hz刷新率。搭載天璣9300+,前置1600萬像素,後置IMX920主攝+5000萬超廣角。電池容量5160mAh,支持120W快充。新增白色版本,用上了白色玻璃後蓋,顏值確實提升了不少。不過還是塑料中框+短焦指紋。12+256GB 2699元
AI Agent在哪些行業領域會產生影響? - 天天要聞

AI Agent在哪些行業領域會產生影響?

在如今飛速前進的科技浪潮中,人工智慧(AI)技術的創新正以前所未有的速度重塑我們的生活和工作的每一個角落。在這一浪潮中,Agent AI智能體以其卓越的能力脫穎而出,它通過模擬人類智能行為,能夠勝任一系列複雜任務,並在多個領域展現出了其無法替代的價值。