本文来自微信公众号:壹娱观察(ID: yiyuguancha),文/大娱乐家。
当字节跳动的即梦AI与快手的可灵AI在国内文生视频赛道激烈厮杀时,大洋彼岸的谷歌 I/O 2025却悄然为这场竞争指明了新的方向。
此刻,国内的AI文生视频产品无疑迎来了双雄争霸的格局。
一方面,即梦AI在字节跳动网传120亿美元下注AI的激进投资战略里占据重要位置,且实现了用户飞速增长;另一方面,可灵AI自商业化以来至今年2月累计营业收入超1亿元,在全球的文生视频性能评测中表现亮眼,成为快手2024年度财报里的重点笔墨。
即梦、可灵展开多方合作
然而,在全球眼光审视市场之下,谷歌5月21日所发布的Veo 3.0、Flow AI电影制作工具,展现的不仅是技术突破,更是一套完整的生态化商业思路,本质上揭示了一个更深层的问题——单纯的模型能力竞争可能正在走向死胡同。
真正的护城河不在于某个技术的领先,而在于如何构建完整的AI驱动生态系统。当国内两家平台还在比拼性能指标或用精雕细琢的成品展示时,谷歌已经开始思考如何让AI驱动的文生视频能力融入用户的完整工作流程。
这种差距,正是国内AI视频生成赛道需要正视的现实。
01 AI视频赛道走向“生态为王”
谷歌I/O 2025最令人印象深刻的,并非某个单一产品的性能提升,而是其展现出的系统性思维。
Veo 3首次实现原生音频生成——街道交通噪音、鸟儿歌唱、甚至角色对话。这一突破体现了谷歌对多模态融合的深度理解。
更值得关注的是,谷歌并未将Veo 3.0作为独立产品推出,而是深度整合到名为Flow的AI电影制作工具中。
2025年Google I/O大会
Flow汇集了Veo、Imagen和Gemini三大模型,让用户无缝创建电影片段、场景和故事。
其背后是谷歌的全新思考——用户需要的不是孤立的生成工具,而是完整创作流程的一体化解决方案。从镜头控制到场景构建,每个功能模块都指向同一目标:让AI融入创作者的工作流程,而非简单替代某个环节。
这种生态化思维在订阅体系设计中体现得更明显。
全新打造的谷歌AI Ultra定价249.99美元/月,不仅拥有全套AI技能包,同时还包含YouTube Premium、30TB云存储,以及早期访问Agent Mode——用户只需陈述目标,Gemini就会智能协调调用工具以实现。
2025年Google I/O大会
谷歌当前的商业化思路展现出三个关键特点:
将基础模型能力进行生态化释放。Veo 3.0的原生音频生成让视频创作更完整沉浸。用户通过简单文本提示同时生成视听内容,创作效率出现质的飞跃。
围绕订阅体系对AI产品重新定价。谷歌 AI Ultra的高价格是为整个AI生态系统重新定价,将AI工具从效率提升工具升级为专业创作者的核心生产力平台。
技术护城河的系统性构建。通过深度整合多个基础大模型并嵌入各个常规产品,谷歌形成了难以被单点突破的技术壁垒。
总结而来,生态化思维将竞争从技术性能比拼转向用户价值的深度挖掘。
图源:网络
当谷歌能提供从内容生成到编辑制作的全流程解决方案时,用户迁移成本大幅提升,平台商业价值得到根本重塑。
更重要的是,谷歌展现的不仅是当前产品能力,更是对AI发展趋势的前瞻判断。未来竞争将不再局限于内容生成,而是扩展到AI如何帮助用户完成复杂的跨领域任务。
02 国内双雄的进阶之路:从拼技术到比生态
面对谷歌 I/O 2025展现出的技术能力与生态化思维,正在国内市场进行激烈竞争的可灵AI和即梦AI都面临着战略转型的关键节点。
两家平台虽然在技术能力上可以说各有千秋,但在生态化布局和商业模式创新方面,仍有巨大的提升空间。
一是对多模态能力的全盘整合。
即梦AI 3.0以电影级画质和2K分辨率输出见长,其VeOmni框架和增强型Goku AI模型展现了字节跳动的技术实力;可灵AI 2.0引入了多模态视觉语言(MVL)概念,通过TXT和MMW实现更精准的创意表达。
可灵(左)即梦(右)截图
而相比谷歌将Veo、Imagen、Gemini三大模型深度融合的做法,两家平台的整合程度还有待提升。
即梦AI应该在主打高效生成的海草S2.0与更强调叙事创作的PixelDance P2.0 Pro等多个专业文生视频模型之间建立更紧密的协同关系;
可灵AI则该考虑将其视频生成能力与可图2.0的图像生成能力进行更深层次的融合;
最关键的是,两家平台都应该将音频生成能力的研发提上日程。Veo 3.0的原生音频生成不仅提升了视频内容的完整性,更为沉浸式内容创作开辟了新可能性。
谷歌Veo 3实现音画同步生成功能
二是如何构建订阅体系以实现技术泛用。
目前,即梦AI的周活跃用户在几个月内增长近三倍,显示出强劲的用户吸引力;可灵AI主要通过API调用和企业合作实现变现,自商业化以来至今年2月累计营业收入超1亿元。
然而,两家平台都缺乏面向个人用户的系统性订阅产品。谷歌 AI Ultra 249.99美元/月的定价策略提供了重要参考:AI工具的价值不应该仅仅基于生成次数或质量水平,而应该基于其为用户创造的完整价值链。
即梦AI可以利用其精准英文字体排版能力和全球发布策略,针对不同区域市场开发差异化的订阅产品;
可灵AI可以考虑推出包含创作工具、素材库、分发渠道、甚至变现支持的一体化订阅服务。
Veo 3.0生成的视频
三是对创作生态的构建完善程度。
字节千亿级别的AI基础设施投资和大模型技术投入为即梦AI提供了能力不俗的技术底座,但如何将这种技术优势转化为生态优势,依然是即梦AI需要重点思考的问题。即梦AI或许还需要进一步依靠TikTok的全球创作生态,去构建一个面向国际创意社区的完整创作链条。
快手平台拥有庞大的内容创作者群体和完善的商业化体系,这为可灵AI构建生态闭环提供了得天独厚的条件。接下来,可灵AI可以学习谷歌Flow的设计思路,开发一个深度整合快手生态的创作工具,让用户从创意构思、内容生成、到发布推广、商业变现形成完整闭环。
可灵AI 2.0宣传图
最后则是AI Agent的发展路径。
谷歌Agent Mode的推出预示着各类型的AI工具正在从被动的内容生成器向主动的工作流助手转变,文生视频也不例外。
对于两家平台而言,这意味着需要将文生视频生成能力与更广泛的创作和商业流程进行整合。
即梦AI的多模型调用策略为开发AI Agent提供了良好基础,但需要在模型间建立更智能的协调机制;可灵AI的多图参考功能已经展现了一定的智能化水平,但距离真正的泛用型AI助手还有明显差距。
即梦AI官网
当然以上这些都还是建立在最底层大模型能力的持续进步之上。当下谷歌能够实现如此强大的多模态整合能力,与其丰富的数据资源和先进的训练方法密不可分。
字节跳动与快手,虽然都拥有海量的用户生成内容,但如何更好地利用这些数据资源,提升基础大模型的泛化能力和应用效果,仍需要持续探索。
尤其是对快手而言,一开始便选择强攻文生视频这一支线虽然取得一定先发优势,但需要对基础大模型能力的强化提前加以重视,以防在某一时刻成为其整个产品生态的软肋。
图源:网络
从谷歌 I/O 2025的发布来看,AI视频生成赛道正在经历从技术驱动向生态驱动的根本性转变。对于可灵AI和即梦AI而言,这既是挑战也是机遇——谁能更快地完成从单点技术优势向系统性生态优势的转变,谁就能在下一轮竞争中占据主导地位。
而谷歌这次的发布,无疑为这种转变提供了无比清晰的路线图。