隨着大規模多模態模型的興起,如何利用AI技術生成敘事性視頻成為研究熱點。現有的方法,如MINT Video和TTT-Video,嘗試一次性生成完整視頻,但在處理長視頻時,尤其是在維持視覺連貫性和敘事一致性方面,仍然面臨諸多挑戰。
此外,單個視頻片段的生成雖然在質量上有所提升,但在多片段組合時,常常出現過度生硬、內容重複等問題。這些問題不僅影響了觀眾的觀看體驗,也限制了AI在動畫製作領域的應用範圍。
為了解決這些難題,哈爾濱工業大學發布了創新框架AniMaker,通過多個智能體的協同工作,實現從文本故事到動畫視頻的自動化轉換。
AniMake框架主要由4個主要智能體組成:導演智能體、攝影智能體、評審智能體和後期製作智能體,這些智能體各司其職,相互協作共同完成動畫的創作過程。
導演智能體是整個動畫創作流程的起點,其任務是從文本故事中生成詳細的腳本和故事板。導演智能體首先利用Gemini 2.0 Flash模型根據輸入的文本故事生成包含鏡頭描述的原始腳本。然後,通過驗證腳本的一致性和敘事流暢性,確保故事的連貫性。
接下來,在故事板實現階段,導演智能體構建一個視覺庫,包括角色庫和背景庫。角色庫利用Hunyuan3D模型生成角色的參考圖像,背景庫則通過FLUX1-dev模型生成背景的參考圖像。再通過GPT-4o模型根據驗證後的鏡頭描述和視覺庫中的圖像生成關鍵幀,這些關鍵幀將作為後續視頻生成的基礎。
攝影智能體負責將故事板轉化為具體的視頻剪輯。這一過程面臨的挑戰包括角色外觀的扭曲、動作的不一致性以及物體的不一致性。為了解決這些問題,AniMaker引入了MCTS-Gen策略。MCTS-Gen的核心思想是通過生成多個候選剪輯,並從中選擇最優的剪輯,以確保每個剪輯不僅自身質量高,而且與前後剪輯保持一致性和連貫性。
MCTS-Gen的運行過程包括四個主要步驟:擴展、模擬、回溯和選擇。在擴展階段,攝影智能體從當前路徑的終端節點生成多個初始候選剪輯,並利用AniEval框架對這些剪輯進行評分和排序。在模擬階段,根據UCT得分進一步擴展樹結構,選擇得分最高的節點生成新的候選剪輯。回溯階段將新生成剪輯的評分向上傳播,更新父節點的評分。
最後,在選擇階段,選擇評分最高的剪輯加入到當前路徑中,並繼續生成新的候選剪輯,直到達到預設的候選數量。
評審智能體的任務是對生成的視頻剪輯進行評估,以確保其質量和連貫性。現有的評估指標,如CLIP Score和Inception Score,雖然能夠在一定程度上評估視頻生成模型的性能,但在區分同一模型生成的不同候選剪輯時往往表現不佳。此外,廣泛使用的VBench評估框架也存在諸多局限性,例如其“動態度”指標過於簡單,僅測量像素變化,而不能準確反映角色動作;“一致性”指標則基於單剪輯分割,不適合多鏡頭動畫的評估。
為此,AniMaker提出了AniEval評估框架。AniEval在EvalCrafter框架的基礎上進行了改進和擴展,涵蓋了整體視頻質量、文本-視頻對齊、視頻一致性、運動質量等多個維度的14個細粒度指標。例如,DreamSim指標用於評估幀間的一致性;
CountScore指標用於檢測對象在鏡頭間出現或消失的問題;面部一致性指標則通過在Anime Face Dataset數據集上訓練的InceptionNext模型來評估動畫角色面部的一致性。AniEval還支持基於上下文的評分,即在評估每個剪輯時,會考慮其前後的剪輯內容,從而為多鏡頭動畫生成提供更準確的評估。
後期製作智能體負責將視頻剪輯序列轉化為最終的動畫影片。這一過程包括三個階段。首先,利用Gemini 2.0 Flash生成詳細的旁白腳本,指定旁白內容、對話、情感語調以及期望的聲音音色。
然後,根據角色屬性選擇合適的聲音檔案,並根據文本長度進行音視頻同步的評估。通過CosyVoice2模型生成音頻軌道,並驗證其持續時間和內容的準確性。最後,利用MoviePy庫進行影片的組裝,整合經過驗證的字幕,並進行全面的編輯,以確保視覺、旁白和字幕之間的精確同步。