哈工大發布動畫多智能體,文本一鍵生成連貫動畫

2025年06月25日06:12:05 科技 1858

隨著大規模多模態模型的興起,如何利用AI技術生成敘事性視頻成為研究熱點。現有的方法,如MINT Video和TTT-Video,嘗試一次性生成完整視頻,但在處理長視頻時,尤其是在維持視覺連貫性和敘事一致性方面,仍然面臨諸多挑戰。

此外,單個視頻片段的生成雖然在質量上有所提升,但在多片段組合時,常常出現過度生硬、內容重複等問題。這些問題不僅影響了觀眾的觀看體驗,也限制了AI在動畫製作領域的應用範圍。

為了解決這些難題,哈爾濱工業大學發布了創新框架AniMaker,通過多個智能體的協同工作,實現從文本故事到動畫視頻的自動化轉換。

哈工大發布動畫多智能體,文本一鍵生成連貫動畫 - 天天要聞

AniMake框架主要由4個主要智能體組成:導演智能體、攝影智能體、評審智能體和後期製作智能體,這些智能體各司其職,相互協作共同完成動畫的創作過程。

導演智能體是整個動畫創作流程的起點,其任務是從文本故事中生成詳細的腳本和故事板。導演智能體首先利用Gemini 2.0 Flash模型根據輸入的文本故事生成包含鏡頭描述的原始腳本。然後,通過驗證腳本的一致性和敘事流暢性,確保故事的連貫性。

哈工大發布動畫多智能體,文本一鍵生成連貫動畫 - 天天要聞

接下來,在故事板實現階段,導演智能體構建一個視覺庫,包括角色庫和背景庫。角色庫利用Hunyuan3D模型生成角色的參考圖像,背景庫則通過FLUX1-dev模型生成背景的參考圖像。再通過GPT-4o模型根據驗證後的鏡頭描述和視覺庫中的圖像生成關鍵幀,這些關鍵幀將作為後續視頻生成的基礎。

攝影智能體負責將故事板轉化為具體的視頻剪輯。這一過程面臨的挑戰包括角色外觀的扭曲、動作的不一致性以及物體的不一致性。為了解決這些問題,AniMaker引入了MCTS-Gen策略。MCTS-Gen的核心思想是通過生成多個候選剪輯,並從中選擇最優的剪輯,以確保每個剪輯不僅自身質量高,而且與前後剪輯保持一致性和連貫性。

MCTS-Gen的運行過程包括四個主要步驟:擴展、模擬、回溯和選擇。在擴展階段,攝影智能體從當前路徑的終端節點生成多個初始候選剪輯,並利用AniEval框架對這些剪輯進行評分和排序。在模擬階段,根據UCT得分進一步擴展樹結構,選擇得分最高的節點生成新的候選剪輯。回溯階段將新生成剪輯的評分向上傳播,更新父節點的評分。

哈工大發布動畫多智能體,文本一鍵生成連貫動畫 - 天天要聞

最後,在選擇階段,選擇評分最高的剪輯加入到當前路徑中,並繼續生成新的候選剪輯,直到達到預設的候選數量。

評審智能體的任務是對生成的視頻剪輯進行評估,以確保其質量和連貫性。現有的評估指標,如CLIP Score和Inception Score,雖然能夠在一定程度上評估視頻生成模型的性能,但在區分同一模型生成的不同候選剪輯時往往表現不佳。此外,廣泛使用的VBench評估框架也存在諸多局限性,例如其「動態度」指標過於簡單,僅測量像素變化,而不能準確反映角色動作;「一致性」指標則基於單剪輯分割,不適合多鏡頭動畫的評估。

為此,AniMaker提出了AniEval評估框架。AniEval在EvalCrafter框架的基礎上進行了改進和擴展,涵蓋了整體視頻質量、文本-視頻對齊、視頻一致性、運動質量等多個維度的14個細粒度指標。例如,DreamSim指標用於評估幀間的一致性;

CountScore指標用於檢測對象在鏡頭間出現或消失的問題;面部一致性指標則通過在Anime Face Dataset數據集上訓練的InceptionNext模型來評估動畫角色面部的一致性。AniEval還支持基於上下文的評分,即在評估每個剪輯時,會考慮其前後的剪輯內容,從而為多鏡頭動畫生成提供更準確的評估。

哈工大發布動畫多智能體,文本一鍵生成連貫動畫 - 天天要聞

後期製作智能體負責將視頻剪輯序列轉化為最終的動畫影片。這一過程包括三個階段。首先,利用Gemini 2.0 Flash生成詳細的旁白腳本,指定旁白內容、對話、情感語調以及期望的聲音音色。

然後,根據角色屬性選擇合適的聲音檔案,並根據文本長度進行音視頻同步的評估。通過CosyVoice2模型生成音頻軌道,並驗證其持續時間和內容的準確性。最後,利用MoviePy庫進行影片的組裝,整合經過驗證的字幕,並進行全面的編輯,以確保視覺、旁白和字幕之間的精確同步。

科技分類資訊推薦

微軟工程師揭秘:PC廠商曾修改BIOS版權字元串白嫖正版軟體 - 天天要聞

微軟工程師揭秘:PC廠商曾修改BIOS版權字元串白嫖正版軟體

IT之家 6 月 25 日消息,許多用戶或許都有過這樣的經歷:購買一台新電腦,開機後發現已經預裝了一些軟體。當你打開這些軟體時,它們會自動激活為完整版,無需支付任何額外費用。這背後是 PC 製造商與軟體開發商之間的授權合作,旨在為消費者提供額外福利,吸引購買。然而,一段近日由微軟工程師披露的往事,揭示了某些廠商...
亞馬遜未來三年在英國投資 400 億英鎊,涉物流、創意、科技產業 - 天天要聞

亞馬遜未來三年在英國投資 400 億英鎊,涉物流、創意、科技產業

IT之家 6 月 25 日消息,亞馬遜當地時間本月 23 日宣布,計劃在未來三年(2025~2027)向英國投資共計 400 億英鎊(IT之家註:現匯率約合 3901.72 億元人民幣),用於在當地的物流、創意、科技等業務的發展。亞馬遜計劃在英國設立四個新的運營中心和大量配送站點、在倫敦東區的亞馬遜英國總部新增兩棟建築、提供職業技能培訓...
鴻蒙快車致富經?開發者躺贏新風口 - 天天要聞

鴻蒙快車致富經?開發者躺贏新風口

2025年華為開發者大會(HDC)早餐會那叫一個熱火朝天!這場邊吃邊聊的早餐會,以輕鬆漫談的方式,圍繞「讓『鴻蒙快車』跑起來」主題,聚焦元服務、應用市場編輯推薦及AI智能體三大議題,直接給開發者們鋪開了一條鴻蒙生態的變現「高速路」。
富岳超算新夥伴:IBM 量子計算機系統進駐日本理研計算科學中心 - 天天要聞

富岳超算新夥伴:IBM 量子計算機系統進駐日本理研計算科學中心

IT之家 6 月 25 日消息,IBM 和日本理化學研究所(IT之家註:即理研、RIKEN)日本當地時間 23 日宣布,將 IBM Quantum System Two 量子計算機部署到理研計算科學中心 (R-CCS) 內,而 R-CCS 正是理研現有旗艦經典超算「富岳」的所在地。這也是 IBM 首次將 Quantum System Two 系統部署到美國境
微軟Win10新規可免費延長1年至 2026 年 10 月:備份工具同步設置 - 天天要聞

微軟Win10新規可免費延長1年至 2026 年 10 月:備份工具同步設置

IT之家 6 月 25 日消息,科技媒體 Windows Latest 昨日(6 月 24 日)發布博文,報道稱微軟將為 Windows 10 系統用戶,推出一項新的延長支持周期服務,用戶若願意將微軟賬戶與設置同步到雲端,其支持期限將從原定的 2025 年 10 月 14 日延長至 2026 年 10 月 13 日。IT之家註:微軟已官宣 2025 年 10
合成器巨頭羅蘭發布獨特形態數字樂器Mood Pan:適合放鬆、冥想 - 天天要聞

合成器巨頭羅蘭發布獨特形態數字樂器Mood Pan:適合放鬆、冥想

IT之家 6 月 25 日消息,據外媒 Engadget 24 日報道,合成器大廠羅蘭近日發布一款風格獨特的數字樂器 ——Mood Pan。這是一種電子版手碟,源自上世紀三十年代風靡特立尼達和多巴哥的鋼鼓,被視為 20 世紀唯一真正誕生的全新原聲樂器。不過傳統的手碟和鋼鼓都需要較高演奏技巧,而 Mood Pan 則更易上手:設備面板上設有九個...
踐行「科技向善」守護家庭和諧  騰訊客服馬瀅榮獲2025「中國好人」稱號 - 天天要聞

踐行「科技向善」守護家庭和諧 騰訊客服馬瀅榮獲2025「中國好人」稱號

6月24日,2025年首次「中國好人榜」發布儀式暨全國道德模範與身邊好人現場交流活動在河南省安陽市舉辦。經各地推薦、網友評議和專家評審等環節,共有152人(組)助人為樂、見義勇為、誠實守信、敬業奉獻、孝老愛親身邊好人光榮上榜。其中,經四川推薦,騰訊客服未成年人保護營地教育負責人馬瀅上榜助人為樂類「中國好人」。...
蘋果又翻車?約1年時間內第4次下架「爭議性」廣告 - 天天要聞

蘋果又翻車?約1年時間內第4次下架「爭議性」廣告

【TechWeb】6月25日消息,據外媒報道,蘋果公司在發布一則廣告僅一天後就將其撤下,這是其在過去一年多時間裡撤下的第四則廣告。這則時長近八分鐘的廣告名為「家長演示會」,由喜劇演員馬丁·赫利希(Martin Herlihy)出鏡,他給學生們提供了一些建議,教他們如何說服父母為自己購買一台 Mac。蘋果公司在上周五發布了這則廣...