谷歌最强视频生成AI模型Veo3亮相:背景音、人物对话都不在话下

it之家 5 月 21 日消息,在今年的 i/o 开发者大会上,谷歌发布新一代视频生成模型 veo3,这也是其首个可生成视频背景音效的模型。它不仅能合成画面,还能为鸟鸣或街头交通等场景配上相应的音效,甚至还可生成人物对话。

谷歌称,veo 3 在物理模拟与口型同步方面也表现优异。目前,该模型仅面向美国地区的 gemini ultra 用户,以及 vertex ai 的企业用户开放,也已集成进谷歌的 ai 影视制作工具 flow 中。

用户仍可为 veo 2 提供人物、风格、场景或物体的图像参考,并通过 flow 使用镜头控制功能进行旋转、缩放,甚至将画面从竖屏调整为横屏,或在视频中添加、删除元素。

当前用户越来越难以辨别 ai 生成内容,谷歌为此推出了 synthid detector。用户可上传媒体文件以检测其是否包含 synthid 水印,这是谷歌用于识别 ai 作品的标记工具。不过,目前并非所有图像生成模型都支持这一水印。

谷歌 i/o 开发者大会仍在进行,it之家将保持关注。