清華人工智慧研究院副院長朱軍：視頻生成邁入精準可控新時代

2025年03月29日23:10:27 國際 1836

朱軍：發布多模態的可控生成｜未來人工智慧先鋒論壇

騰訊科技特約作者涵清

編輯鄭可君

近年來，以生成式人工智慧（aigc）為代表的技術浪潮席捲全球。然而，許多用戶在實際應用中經常遇到ai「不聽話」的問題，比如生成的視頻或圖像與創作者的想法存在較大偏差，缺乏足夠的精準控制。這種內容生成的隨機性，已成為阻礙生成式ai進一步應用的瓶頸之一。如何提高內容生成的可控性與精準性，正逐漸成為業界的重要議題。

在2025年中關村論壇上，清華大學人工智慧研究院副院長、生數科技創始人兼首席科學家朱軍教授，就視頻大模型的最新進展、突破性技術及未來發展方向進行了深入分享。

以下內容為朱軍教授演講實錄的編輯整理版本。

一、視頻大模型vidu的誕生與進化歷程

2024年4月，生數科技在中關村論壇首次推出了視頻大模型vidu。作為國內首個與谷歌sora直接對標的視頻大模型，vidu從誕生起便具備長時長、高一致性和高動態性的技術特點，迅速引起了行業內外的廣泛關注。最初發布時，vidu模型可實現16秒的視頻生成，隨後迅速迭代。

同年6月，生數科技將模型性能顯著提升，實現了一鍵生成32秒視頻的能力，推出動態3d視頻生成版本vidu 4d，使生成內容更加立體豐富。7月，vidu模型正式全球上線，強調角色一致性的精準控制，讓用戶能夠明確地指定和控制特定角色的動作和行為。

到2024年9月，vidu再次實現重大突破，將單主體的可控生成從人物角色擴展到虛擬形象、物品等更廣泛的內容。這種技術升級進一步增強了內容創作的自由度，滿足了創作者多元化的表達需求。2024年11月，vidu 1.5版本的發布再次掀起關注，實現了多主體與環境場景的同步精準控制，使用戶能夠更自如地掌控複雜場景的視頻內容生成。

二、技術迭代下的用戶體驗躍升

進入2025年，生數科技發布了vidu 2.0版本。在這一階段，模型在生成效率、生成成本方面都實現了質的飛躍。vidu 2.0版本能夠在短短10秒內生成4秒高質量的視頻內容，每秒生成成本最低降至4分錢，大幅提升了經濟性與生產效率。同時，為進一步便利創作者使用，主題庫、模板庫等功能陸續上線，極大提升了用戶的創作體驗。

截至目前，vidu平台已服務全球超過200個國家和地區，用戶數量超過千萬級，涵蓋動漫、廣告、影視劇、遊戲等多個行業，顯著擴大了生成式ai技術的應用領域。