哈工大发布动画多智能体,文本一键生成连贯动画

2025年06月25日06:12:05 科技 1858

随着大规模多模态模型的兴起,如何利用AI技术生成叙事性视频成为研究热点。现有的方法,如MINT Video和TTT-Video,尝试一次性生成完整视频,但在处理长视频时,尤其是在维持视觉连贯性和叙事一致性方面,仍然面临诸多挑战。

此外,单个视频片段的生成虽然在质量上有所提升,但在多片段组合时,常常出现过度生硬、内容重复等问题。这些问题不仅影响了观众的观看体验,也限制了AI在动画制作领域的应用范围。

为了解决这些难题,哈尔滨工业大学发布了创新框架AniMaker,通过多个智能体的协同工作,实现从文本故事到动画视频的自动化转换。

哈工大发布动画多智能体,文本一键生成连贯动画 - 天天要闻

AniMake框架主要由4个主要智能体组成:导演智能体、摄影智能体、评审智能体和后期制作智能体,这些智能体各司其职,相互协作共同完成动画的创作过程。

导演智能体是整个动画创作流程的起点,其任务是从文本故事中生成详细的脚本和故事板。导演智能体首先利用Gemini 2.0 Flash模型根据输入的文本故事生成包含镜头描述的原始脚本。然后,通过验证脚本的一致性和叙事流畅性,确保故事的连贯性。

哈工大发布动画多智能体,文本一键生成连贯动画 - 天天要闻

接下来,在故事板实现阶段,导演智能体构建一个视觉库,包括角色库和背景库。角色库利用Hunyuan3D模型生成角色的参考图像,背景库则通过FLUX1-dev模型生成背景的参考图像。再通过GPT-4o模型根据验证后的镜头描述和视觉库中的图像生成关键帧,这些关键帧将作为后续视频生成的基础。

摄影智能体负责将故事板转化为具体的视频剪辑。这一过程面临的挑战包括角色外观的扭曲、动作的不一致性以及物体的不一致性。为了解决这些问题,AniMaker引入了MCTS-Gen策略。MCTS-Gen的核心思想是通过生成多个候选剪辑,并从中选择最优的剪辑,以确保每个剪辑不仅自身质量高,而且与前后剪辑保持一致性和连贯性。

MCTS-Gen的运行过程包括四个主要步骤:扩展、模拟、回溯和选择。在扩展阶段,摄影智能体从当前路径的终端节点生成多个初始候选剪辑,并利用AniEval框架对这些剪辑进行评分和排序。在模拟阶段,根据UCT得分进一步扩展树结构,选择得分最高的节点生成新的候选剪辑。回溯阶段将新生成剪辑的评分向上传播,更新父节点的评分。

哈工大发布动画多智能体,文本一键生成连贯动画 - 天天要闻

最后,在选择阶段,选择评分最高的剪辑加入到当前路径中,并继续生成新的候选剪辑,直到达到预设的候选数量。

评审智能体的任务是对生成的视频剪辑进行评估,以确保其质量和连贯性。现有的评估指标,如CLIP Score和Inception Score,虽然能够在一定程度上评估视频生成模型的性能,但在区分同一模型生成的不同候选剪辑时往往表现不佳。此外,广泛使用的VBench评估框架也存在诸多局限性,例如其“动态度”指标过于简单,仅测量像素变化,而不能准确反映角色动作;“一致性”指标则基于单剪辑分割,不适合多镜头动画的评估。

为此,AniMaker提出了AniEval评估框架。AniEval在EvalCrafter框架的基础上进行了改进和扩展,涵盖了整体视频质量、文本-视频对齐、视频一致性、运动质量等多个维度的14个细粒度指标。例如,DreamSim指标用于评估帧间的一致性;

CountScore指标用于检测对象在镜头间出现或消失的问题;面部一致性指标则通过在Anime Face Dataset数据集上训练的InceptionNext模型来评估动画角色面部的一致性。AniEval还支持基于上下文的评分,即在评估每个剪辑时,会考虑其前后的剪辑内容,从而为多镜头动画生成提供更准确的评估。

哈工大发布动画多智能体,文本一键生成连贯动画 - 天天要闻

后期制作智能体负责将视频剪辑序列转化为最终的动画影片。这一过程包括三个阶段。首先,利用Gemini 2.0 Flash生成详细的旁白脚本,指定旁白内容、对话、情感语调以及期望的声音音色。

然后,根据角色属性选择合适的声音档案,并根据文本长度进行音视频同步的评估。通过CosyVoice2模型生成音频轨道,并验证其持续时间和内容的准确性。最后,利用MoviePy库进行影片的组装,整合经过验证的字幕,并进行全面的编辑,以确保视觉、旁白和字幕之间的精确同步。

科技分类资讯推荐

微软工程师揭秘:PC厂商曾修改BIOS版权字符串白嫖正版软件 - 天天要闻

微软工程师揭秘:PC厂商曾修改BIOS版权字符串白嫖正版软件

IT之家 6 月 25 日消息,许多用户或许都有过这样的经历:购买一台新电脑,开机后发现已经预装了一些软件。当你打开这些软件时,它们会自动激活为完整版,无需支付任何额外费用。这背后是 PC 制造商与软件开发商之间的授权合作,旨在为消费者提供额外福利,吸引购买。然而,一段近日由微软工程师披露的往事,揭示了某些厂商...
亚马逊未来三年在英国投资 400 亿英镑,涉物流、创意、科技产业 - 天天要闻

亚马逊未来三年在英国投资 400 亿英镑,涉物流、创意、科技产业

IT之家 6 月 25 日消息,亚马逊当地时间本月 23 日宣布,计划在未来三年(2025~2027)向英国投资共计 400 亿英镑(IT之家注:现汇率约合 3901.72 亿元人民币),用于在当地的物流、创意、科技等业务的发展。亚马逊计划在英国设立四个新的运营中心和大量配送站点、在伦敦东区的亚马逊英国总部新增两栋建筑、提供职业技能培训...
鸿蒙快车致富经?开发者躺赢新风口 - 天天要闻

鸿蒙快车致富经?开发者躺赢新风口

2025年华为开发者大会(HDC)早餐会那叫一个热火朝天!这场边吃边聊的早餐会,以轻松漫谈的方式,围绕“让‘鸿蒙快车’跑起来”主题,聚焦元服务、应用市场编辑推荐及AI智能体三大议题,直接给开发者们铺开了一条鸿蒙生态的变现“高速路”。
富岳超算新伙伴:IBM 量子计算机系统进驻日本理研计算科学中心 - 天天要闻

富岳超算新伙伴:IBM 量子计算机系统进驻日本理研计算科学中心

IT之家 6 月 25 日消息,IBM 和日本理化学研究所(IT之家注:即理研、RIKEN)日本当地时间 23 日宣布,将 IBM Quantum System Two 量子计算机部署到理研计算科学中心 (R-CCS) 内,而 R-CCS 正是理研现有旗舰经典超算“富岳”的所在地。这也是 IBM 首次将 Quantum System Two 系统部署到美国境
微软Win10新规可免费延长1年至 2026 年 10 月:备份工具同步设置 - 天天要闻

微软Win10新规可免费延长1年至 2026 年 10 月:备份工具同步设置

IT之家 6 月 25 日消息,科技媒体 Windows Latest 昨日(6 月 24 日)发布博文,报道称微软将为 Windows 10 系统用户,推出一项新的延长支持周期服务,用户若愿意将微软账户与设置同步到云端,其支持期限将从原定的 2025 年 10 月 14 日延长至 2026 年 10 月 13 日。IT之家注:微软已官宣 2025 年 10
合成器巨头罗兰发布独特形态数字乐器Mood Pan:适合放松、冥想 - 天天要闻

合成器巨头罗兰发布独特形态数字乐器Mood Pan:适合放松、冥想

IT之家 6 月 25 日消息,据外媒 Engadget 24 日报道,合成器大厂罗兰近日发布一款风格独特的数字乐器 ——Mood Pan。这是一种电子版手碟,源自上世纪三十年代风靡特立尼达和多巴哥的钢鼓,被视为 20 世纪唯一真正诞生的全新原声乐器。不过传统的手碟和钢鼓都需要较高演奏技巧,而 Mood Pan 则更易上手:设备面板上设有九个...
践行“科技向善”守护家庭和谐  腾讯客服马滢荣获2025“中国好人”称号 - 天天要闻

践行“科技向善”守护家庭和谐 腾讯客服马滢荣获2025“中国好人”称号

6月24日,2025年首次“中国好人榜”发布仪式暨全国道德模范与身边好人现场交流活动在河南省安阳市举办。经各地推荐、网友评议和专家评审等环节,共有152人(组)助人为乐、见义勇为、诚实守信、敬业奉献、孝老爱亲身边好人光荣上榜。其中,经四川推荐,腾讯客服未成年人保护营地教育负责人马滢上榜助人为乐类“中国好人”。...
苹果又翻车?约1年时间内第4次下架“争议性”广告 - 天天要闻

苹果又翻车?约1年时间内第4次下架“争议性”广告

【TechWeb】6月25日消息,据外媒报道,苹果公司在发布一则广告仅一天后就将其撤下,这是其在过去一年多时间里撤下的第四则广告。这则时长近八分钟的广告名为“家长演示会”,由喜剧演员马丁·赫利希(Martin Herlihy)出镜,他给学生们提供了一些建议,教他们如何说服父母为自己购买一台 Mac。苹果公司在上周五发布了这则广...