AutoStudio:能做漫畫的AI,多輪對話保持一致風格!

在當今的AI的帶領下域,圖像生成技術正不斷取得令人矚目的進展。今天要給大家介紹一個能幫你生成漫畫的技術:AutoStudio

AutoStudio是什麼?

AutoStudio是一個先進的AI工具,它能夠在多輪對話中與用戶互動,生成一系列主題和風格一致的圖像。

無論用戶如何添加或修改內容,AutoStudio都能保持圖像生成的一致性,特別適合連環畫創作和其他需要連貫視覺敘事的場景。

AutoStudio如何做到的?

它是一個無需訓練的多智能體框架,採用了基於大型語言模型(LLMs)的三個智能體來處理交互,同時結合了基於穩定擴散(SD)的智能體來生成高質量圖像。

具體來說,AutoStudio 由以下部分組成:

  • 主題管理器:解釋交互對話並管理每個主題的上下文。
  • 布局生成器:生成細粒度的邊界框來控制主題位置。
  • 監督員:為布局改進提供建議。
  • 繪製器:根據改進的布局和主題數據庫完成圖像生成。


此外,AutoStudio 還引入了 Parallel-UNet 來取代繪製器中的原始 UNet,它採用了兩個並行的交叉注意力模塊來利用主題感知特徵。同時,還引入了主題初始化生成方法,以更好地保留小主題。

性能如何?

通過這些創新,AutoStudio 能夠交互式地、一致地生成多主題的圖像序列。在公共 CMIGBench 基準和人工評估的廣泛實驗中,AutoStudio 很好地保持了多輪交互中的多主題一致性,並且在平均 Frechet Inception Distance 方面將現有技術水平提高了 13.65%,在平均字符 - 字符相似性方面提高了 2.83%。

代碼地址:

https://github.com/donahowe/AutoStudio