在当今的AI的带领下域,图像生成技术正不断取得令人瞩目的进展。今天要给大家介绍一个能帮你生成漫画的技术:AutoStudio
AutoStudio是什么?
AutoStudio是一个先进的AI工具,它能够在多轮对话中与用户互动,生成一系列主题和风格一致的图像。
无论用户如何添加或修改内容,AutoStudio都能保持图像生成的一致性,特别适合连环画创作和其他需要连贯视觉叙事的场景。
AutoStudio如何做到的?
它是一个无需训练的多智能体框架,采用了基于大型语言模型(LLMs)的三个智能体来处理交互,同时结合了基于稳定扩散(SD)的智能体来生成高质量图像。
具体来说,AutoStudio 由以下部分组成:
- 主题管理器:解释交互对话并管理每个主题的上下文。
- 布局生成器:生成细粒度的边界框来控制主题位置。
- 监督员:为布局改进提供建议。
- 绘制器:根据改进的布局和主题数据库完成图像生成。
此外,AutoStudio 还引入了 Parallel-UNet 来取代绘制器中的原始 UNet,它采用了两个并行的交叉注意力模块来利用主题感知特征。同时,还引入了主题初始化生成方法,以更好地保留小主题。
性能如何?
通过这些创新,AutoStudio 能够交互式地、一致地生成多主题的图像序列。在公共 CMIGBench 基准和人工评估的广泛实验中,AutoStudio 很好地保持了多轮交互中的多主题一致性,并且在平均 Frechet Inception Distance 方面将现有技术水平提高了 13.65%,在平均字符 - 字符相似性方面提高了 2.83%。
代码地址:
https://github.com/donahowe/AutoStudio