它將尖端的文本到圖像生成與手繪草圖輸入相結合。
輸入文字生成圖像的AI算法目前大熱,OpenAI的Craiyon(以前的DALL-E mini)和谷歌的Imagen AI釋放出了由人類和計算機想像力合成的奇妙怪異的程序生成藝術的浪潮。本周二,Meta公司透露,它也開發了一個人工智能圖像生成引擎,它希望這將有助於在元宇宙中建立沉浸式的世界,並創造出高級數字藝術。
在使用人工智能生成引擎時,僅憑 "醫院裏有一匹馬 "這句話就能創造出一個圖像,這需要大量的工作。首先,這句話本身被送入一個轉化器模型,這是一個神經網絡,可以解析句子中的單詞,並對它們之間的關係形成上下文理解。一旦掌握了用戶描述的要點,人工智能將使用一組GAN(生成對抗網絡)合成一個新的圖像。
由於近年來努力在日益擴大的高清晰度圖像集上訓練ML模型,並對文本描述進行精心策劃,今天最先進的人工智能可以創造出逼真的圖像,無論你給它們提供什麼胡言亂語。不同的人工智能的具體創造過程是不同的。
Meta AI
例如,谷歌的Imagen使用擴散模型,根據今年6月的一個關鍵詞博客顯示:"它學習將隨機點的模式轉換為圖像。這些圖像首先從低分辨率開始,然後逐步提高分辨率"。 另一方面,谷歌的Parti人工智能,"首先將一組圖像轉換為一連串的代碼條目,類似於拼圖片。然後將一個給定的文本提示翻譯成這些代碼條目,並創建一個新的圖像"。
雖然這些系統可以創建向其描述的大多數東西,但用戶對輸出圖像的具體方面沒有任何控制。Meta首席執行官馬克-扎克伯格在周二的博客中表:"為了實現人工智能推動創造性表達的潛力,人們應該能夠塑造和控制系統生成的內容。"
該公司的 "探索性人工智能研究概念 "被稱為Make-A-Scene,正是通過將用戶創建的草圖納入其基於文本的圖像生成,輸出一個2,048 x 2,048像素的圖像。這種組合使用戶不僅可以描述他們在圖像中想要的東西,而且還可以決定圖像的整體構成。扎克伯格說:"它展示了人們如何使用文字和簡單的圖畫來更具體地傳達他們的願景,使用各種元素、形式、安排、深度、構圖和結構"。
在測試中,一個人類評估小組壓倒性地選擇了文字加圖畫的圖像,而不是僅有文字的圖像,因為它與原始草圖的一致性更好(99.54%的時間),與原始文字描述的一致性更好(66%的時間)。為了進一步發展這項技術,Meta公司與包括Sofia Crespo、Scott Eaton、Alexander Reben和Refik Anadol在內的知名人工智能藝術家分享其Make-A-Scene演示,他們將使用該系統並提供反饋。目前還沒有關於該人工智能何時向公眾開放的消息。