朱軍:發布多模態的可控生成|未來人工智慧先鋒論壇
騰訊科技特約作者 涵清
編輯 鄭可君
近年來,以生成式人工智慧(aigc)為代表的技術浪潮席捲全球。然而,許多用戶在實際應用中經常遇到ai「不聽話」的問題,比如生成的視頻或圖像與創作者的想法存在較大偏差,缺乏足夠的精準控制。這種內容生成的隨機性,已成為阻礙生成式ai進一步應用的瓶頸之一。如何提高內容生成的可控性與精準性,正逐漸成為業界的重要議題。
在2025年中關村論壇上,清華大學人工智慧研究院副院長、生數科技創始人兼首席科學家朱軍教授,就視頻大模型的最新進展、突破性技術及未來發展方向進行了深入分享。
以下內容為朱軍教授演講實錄的編輯整理版本。
一、視頻大模型vidu的誕生與進化歷程
2024年4月,生數科技在中關村論壇首次推出了視頻大模型vidu。作為國內首個與谷歌sora直接對標的視頻大模型,vidu從誕生起便具備長時長、高一致性和高動態性的技術特點,迅速引起了行業內外的廣泛關注。最初發布時,vidu模型可實現16秒的視頻生成,隨後迅速迭代。
同年6月,生數科技將模型性能顯著提升,實現了一鍵生成32秒視頻的能力,推出動態3d視頻生成版本vidu 4d,使生成內容更加立體豐富。7月,vidu模型正式全球上線,強調角色一致性的精準控制,讓用戶能夠明確地指定和控制特定角色的動作和行為。
到2024年9月,vidu再次實現重大突破,將單主體的可控生成從人物角色擴展到虛擬形象、物品等更廣泛的內容。這種技術升級進一步增強了內容創作的自由度,滿足了創作者多元化的表達需求。2024年11月,vidu 1.5版本的發布再次掀起關注,實現了多主體與環境場景的同步精準控制,使用戶能夠更自如地掌控複雜場景的視頻內容生成。
二、技術迭代下的用戶體驗躍升
進入2025年,生數科技發布了vidu 2.0版本。在這一階段,模型在生成效率、生成成本方面都實現了質的飛躍。vidu 2.0版本能夠在短短10秒內生成4秒高質量的視頻內容,每秒生成成本最低降至4分錢,大幅提升了經濟性與生產效率。同時,為進一步便利創作者使用,主題庫、模板庫等功能陸續上線,極大提升了用戶的創作體驗。
截至目前,vidu平台已服務全球超過200個國家和地區,用戶數量超過千萬級,涵蓋動漫、廣告、影視劇、遊戲等多個行業,顯著擴大了生成式ai技術的應用領域。
三、vidu q1:內容生成精準可控的新里程碑
儘管vidu視頻大模型不斷迭代和進步,但朱軍教授坦言,內容生成的隨機性仍然是業界普遍面臨的難題。尤其是視頻內容生成過程中,主體位置難以精準控制、運動軌跡經常隨機化,嚴重限制了創作者的精準表達。
為解決這些痛點,生數科技推出vidu q1版本。新版本首次實現了視頻內容生成的高度精準可控,例如用戶通過簡單的圖示即可明確視頻中主體的位置關係,徹底避免主體位置隨機出現偏差的問題。此外,視頻主體的運動軌跡也可被嚴格按照用戶的需求精準執行,確保視頻內容始終符合創作者預期。
在多主體控制方面,vidu q1實現了同時精準控制多個主體與環境的一致性。無論場景多麼複雜,用戶均可通過簡單的指令與圖示精確定義,確保生成的視頻內容始終精準穩定。此外,q1版本還首次實現音頻內容的精準控制,創作者可以自由定義音頻的不同時間段場景,確保音視頻的轉場與內容表達精確一致。
展望未來,朱軍教授表示,vidu模型不僅僅局限於視頻內容的精準生成,其技術發展潛力巨大。視頻大模型在多模態融合與空間、時間智能領域的能力,將為未來通用人工智慧的發展奠定堅實基礎,助推人工智慧技術真正實現虛擬世界與現實物理世界的融合。
據悉,vidu q1將在2025年4月正式上線,作為又一次迭代升級,其實際效果與用戶反饋也將在未來的應用中接受檢驗。隨著生成式ai在創意、內容生產等場景中的不斷滲透,如何實現真正可控、可靠的多模態生成,仍將是整個行業持續探索的課題。
視頻大模型vidu q1 宣傳視頻