在當今的AI的帶領下域,圖像生成技術正不斷取得令人矚目的進展。今天要給大家介紹一個能幫你生成漫畫的技術:AutoStudio
AutoStudio是什麼?
AutoStudio是一個先進的AI工具,它能夠在多輪對話中與用戶互動,生成一系列主題和風格一致的圖像。
無論用戶如何添加或修改內容,AutoStudio都能保持圖像生成的一致性,特別適合連環畫創作和其他需要連貫視覺敘事的場景。
AutoStudio如何做到的?
它是一個無需訓練的多智能體框架,採用了基於大型語言模型(LLMs)的三個智能體來處理交互,同時結合了基於穩定擴散(SD)的智能體來生成高質量圖像。
具體來說,AutoStudio 由以下部分組成:
- 主題管理器:解釋交互對話並管理每個主題的上下文。
- 布局生成器:生成細粒度的邊界框來控制主題位置。
- 監督員:為布局改進提供建議。
- 繪製器:根據改進的布局和主題資料庫完成圖像生成。
此外,AutoStudio 還引入了 Parallel-UNet 來取代繪製器中的原始 UNet,它採用了兩個並行的交叉注意力模塊來利用主題感知特徵。同時,還引入了主題初始化生成方法,以更好地保留小主題。
性能如何?
通過這些創新,AutoStudio 能夠互動式地、一致地生成多主題的圖像序列。在公共 CMIGBench 基準和人工評估的廣泛實驗中,AutoStudio 很好地保持了多輪交互中的多主題一致性,並且在平均 Frechet Inception Distance 方面將現有技術水平提高了 13.65%,在平均字元 - 字元相似性方面提高了 2.83%。
代碼地址:
https://github.com/donahowe/AutoStudio