清华人工智能研究院副院长朱军:视频生成迈入精准可控新时代

2025年03月29日23:10:27 国际 1836

朱军:发布多模态的可控生成|未来人工智能先锋论坛

腾讯科技特约作者 涵清

编辑 郑可君

近年来,以生成式人工智能(aigc)为代表的技术浪潮席卷全球。然而,许多用户在实际应用中经常遇到ai“不听话”的问题,比如生成的视频或图像与创作者的想法存在较大偏差,缺乏足够的精准控制。这种内容生成的随机性,已成为阻碍生成式ai进一步应用的瓶颈之一。如何提高内容生成的可控性与精准性,正逐渐成为业界的重要议题。

在2025年中关村论坛上,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授,就视频大模型的最新进展、突破性技术及未来发展方向进行了深入分享。

清华人工智能研究院副院长朱军:视频生成迈入精准可控新时代 - 天天要闻

以下内容为朱军教授演讲实录的编辑整理版本。

一、视频大模型vidu的诞生与进化历程

2024年4月,生数科技在中关村论坛首次推出了视频大模型vidu。作为国内首个与谷歌sora直接对标的视频大模型,vidu从诞生起便具备长时长、高一致性和高动态性的技术特点,迅速引起了行业内外的广泛关注。最初发布时,vidu模型可实现16秒的视频生成,随后迅速迭代。

同年6月,生数科技将模型性能显著提升,实现了一键生成32秒视频的能力,推出动态3d视频生成版本vidu 4d,使生成内容更加立体丰富。7月,vidu模型正式全球上线,强调角色一致性的精准控制,让用户能够明确地指定和控制特定角色的动作和行为。

到2024年9月,vidu再次实现重大突破,将单主体的可控生成从人物角色扩展到虚拟形象、物品等更广泛的内容。这种技术升级进一步增强了内容创作的自由度,满足了创作者多元化的表达需求。2024年11月,vidu 1.5版本的发布再次掀起关注,实现了多主体与环境场景的同步精准控制,使用户能够更自如地掌控复杂场景的视频内容生成。

二、技术迭代下的用户体验跃升

进入2025年,生数科技发布了vidu 2.0版本。在这一阶段,模型在生成效率、生成成本方面都实现了质的飞跃。vidu 2.0版本能够在短短10秒内生成4秒高质量的视频内容,每秒生成成本最低降至4分钱,大幅提升了经济性与生产效率。同时,为进一步便利创作者使用,主题库、模板库等功能陆续上线,极大提升了用户的创作体验。

截至目前,vidu平台已服务全球超过200个国家和地区,用户数量超过千万级,涵盖动漫、广告、影视剧、游戏等多个行业,显著扩大了生成式ai技术的应用领域。

三、vidu q1:内容生成精准可控的新里程碑

尽管vidu视频大模型不断迭代和进步,但朱军教授坦言,内容生成的随机性仍然是业界普遍面临的难题。尤其是视频内容生成过程中,主体位置难以精准控制、运动轨迹经常随机化,严重限制了创作者的精准表达。

为解决这些痛点,生数科技推出vidu q1版本。新版本首次实现了视频内容生成的高度精准可控,例如用户通过简单的图示即可明确视频中主体的位置关系,彻底避免主体位置随机出现偏差的问题。此外,视频主体的运动轨迹也可被严格按照用户的需求精准执行,确保视频内容始终符合创作者预期。

在多主体控制方面,vidu q1实现了同时精准控制多个主体与环境的一致性。无论场景多么复杂,用户均可通过简单的指令与图示精确定义,确保生成的视频内容始终精准稳定。此外,q1版本还首次实现音频内容的精准控制,创作者可以自由定义音频的不同时间段场景,确保音视频的转场与内容表达精确一致。

展望未来,朱军教授表示,vidu模型不仅仅局限于视频内容的精准生成,其技术发展潜力巨大。视频大模型在多模态融合与空间、时间智能领域的能力,将为未来通用人工智能的发展奠定坚实基础,助推人工智能技术真正实现虚拟世界与现实物理世界的融合。

据悉,vidu q1将在2025年4月正式上线,作为又一次迭代升级,其实际效果与用户反馈也将在未来的应用中接受检验。随着生成式ai在创意、内容生产等场景中的不断渗透,如何实现真正可控、可靠的多模态生成,仍将是整个行业持续探索的课题。

视频大模型vidu q1 宣传视频

国际分类资讯推荐

中国单方面免签“朋友圈”增至47国 - 天天要闻

中国单方面免签“朋友圈”增至47国

6月9日起,中方对沙特、阿曼、科威特、巴林持普通护照人员试行免签政策。至此,适用单方面免签政策来华国家已扩展至47个。自2025年6月9日至2026年6月8日,沙特、阿曼、科威特、巴林持普通护照人员来华经商、旅游观光、探亲访友、交流访问、过
海内外人士香港共商科技治理与可持续发展“博鳌方案” - 天天要闻

海内外人士香港共商科技治理与可持续发展“博鳌方案”

中新网香港6月8日电 (记者 刘大炜)以“科技引领未来,创新驱动转型”为主题的博鳌亚洲论坛国际科技与创新论坛2025年香港会议7日在香港会议展览中心闭幕。两天时间内,来自20多个国家和地区的800多位政府官员、国际组织代表、企业家和专家学者
洛杉矶抗议升级!三弹齐发射向抗议人群,高速公路遭阻断!特朗普强硬表态,加州州长:撤回国民警卫队 - 天天要闻

洛杉矶抗议升级!三弹齐发射向抗议人群,高速公路遭阻断!特朗普强硬表态,加州州长:撤回国民警卫队

每经编辑:毕陆名据央视新闻9日消息,记者当地时间8日从NBC获悉,洛杉矶警方在市中心向抗议人群发射催泪弹和橡皮子弹驱散人群,期间有抗议者向警方投掷水瓶、石块。8日下午,抗议者从联邦大楼附近进入匝道,导致101号高速公路交通中断。警方控制局势时,抗议者沿匝道涌入车道,并包围出警人员,同时在该区域三个主要路口聚...
国民警卫队进驻洛杉矶 新华社记者直击冲突现场 - 天天要闻

国民警卫队进驻洛杉矶 新华社记者直击冲突现场

这是6月7日在美国加州洛杉矶县拍摄的示威者与警方对峙现场。新华社发(邱晨摄)当地时间6月8日中午,美国加利福尼亚州洛杉矶市中心联邦执法机构门前的抗议者与部署在该地的国民警卫队人员发生冲突。美国军方说,当天共有300名国民警卫队人员依照指令进
“大米危机”撼动日本政坛 - 天天要闻

“大米危机”撼动日本政坛

自去年夏天至今,日本大米价格持续大幅走高。如今,很多日本人要么被迫缩减大米消费量,要么干脆放弃将大米作为长期以来的第一主食。米价飞涨不仅暴露出日本农业政策的弊端,更是直接影响着将于7月举行的日本国会参议院选举。而这场选举,被日本媒体普遍称作
俄称向乌工业中心推进 乌方称俄散布谎言 - 天天要闻

俄称向乌工业中心推进 乌方称俄散布谎言

俄罗斯国防部当地时间8日通报称,俄军部队正在第聂伯罗彼得罗夫斯克州境内推进。乌克兰武装部队总参谋部则否认了俄军的说法,表示俄军在传播虚假信息。 俄罗斯国防部8日通报称,过去一天,俄军在多地打击了乌军无人机生产和储存设施、弹药库、临时部署点等目标。其中,俄军“中央”作战集群下属的第90坦克师部队已抵达顿涅...
洛杉矶警方与抗议者对峙后撤退 全市进入战术警戒状态 - 天天要闻

洛杉矶警方与抗议者对峙后撤退 全市进入战术警戒状态

央视记者获悉,当地时间6月8日下午,美国加州洛杉矶警察局身着防暴装备的警察在爱德华·罗伊巴尔(Edward Roybal)联邦大楼附近与抗议者对峙后撤退。大约在同一时间,洛杉矶警察局宣布全市进入战术警戒状态,允许主管人员在发生紧急情况或重大事件时让警员继续值班,并保持高水平的人员配备。据悉,此类警报旨在授权警员加...