谷歌最強視頻生成AI模型Veo3亮相：背景音、人物對話都不在話下

分類：科技

瀏覽數：7214

2025-05-21

it之家 5 月 21 日消息，在今年的 i/o 開發者大會上，谷歌發布新一代視頻生成模型 veo3，這也是其首個可生成視頻背景音效的模型。它不僅能合成畫面，還能為鳥鳴或街頭交通等場景配上相應的音效，甚至還可生成人物對話。

谷歌稱，veo 3 在物理模擬與口型同步方面也表現優異。目前，該模型僅面向美國地區的 gemini ultra 用戶，以及 vertex ai 的企業用戶開放，也已集成進谷歌的 ai 影視製作工具 flow 中。

用戶仍可為 veo 2 提供人物、風格、場景或物體的圖像參考，並通過 flow 使用鏡頭控制功能進行旋轉、縮放，甚至將畫面從豎屏調整為橫屏，或在視頻中添加、刪除元素。

當前用戶越來越難以辨別 ai 生成內容，谷歌為此推出了 synthid detector。用戶可上傳媒體文件以檢測其是否包含 synthid 水印，這是谷歌用於識別 ai 作品的標記工具。不過，目前並非所有圖像生成模型都支持這一水印。

谷歌 i/o 開發者大會仍在進行，it之家將保持關注。

科技分類資訊推薦