Meta現在可以通過輸入文本生成視頻了,但畫風有些恐怖

Meta公司的研究人員通過Make-A-Video在人工智能藝術生成領域取得了重大飛躍,這項創造性的新技術(你猜對了)只用文字提示就可以製作視頻。其結果令人印象深刻,種類繁多,而且無一例外,都略顯驚悚。

我們以前見過文本到視頻的模型,它是文本到圖像模型的自然延伸,如DALL-E,它從提示中輸齣劇照。但是,雖然從靜止圖像到移動圖像的概念跳躍對人的大腦來說是很小的,但在機器學習模型中實現它卻遠非易事。

Make-A-Video實際上在後端並沒有改變遊戲規則,正如研究人員在描述它的論文中指出的那樣:「一個只見過描述圖像的文本的模型在生成短視頻方面令人驚訝地有效。」

人工智能使用現有的和有效的擴散技術來創建圖像,這基本上是從純視覺靜態「去噪」,向目標提示的方向逆向工作。這裡要補充的是,該模型還在一堆無標籤的視頻內容上得到了無監督的訓練(即它自己檢查數據,沒有來自人類的強烈指導)。

它從第一項中知道的是如何製作一個真實的圖像;它從第二項中知道的是視頻的連續幀是什麼樣子。令人驚訝的是,它能夠非常有效地將這些東西放在一起,而不需要特別訓練它們應該如何組合。

研究人員寫道:「在空間和時間分辨率、對文本的忠實度和質量等所有方面,Make-A-Video都為文本到視頻的生成設定了新的先進水平,這是由定性和定量措施決定的」。

這很難不令人同意。以前的文本-視頻系統使用了一種不同的方法,其結果並不令人印象深刻,卻讓人們看到了希望。現在,Make-A-Video把它們上升到了一個新高度,實現了與也許18個月前的原始DALL-E或其他上一代系統的圖像一致的保真度。

但必須說的是,他們肯定還是有些不對勁。並不是說我們應該期待逼真的效果或完全自然的運動,但結果都有一種......嗯,沒有別的詞可以形容——它們有點像夢魘,不是嗎?

它們的質量有點可怕,真的像夢魘。運動的質量很奇怪,好像是一部定格動畫電影。腐敗和人工製品給了每件作品一種毛茸茸的超現實的感覺,就像物體要融化掉一樣。人們相互融合,對物體的邊界沒有理解,也不知道什麼東西應該終止於或接觸。

我說這些並不是作為某種人工智能勢利眼,只想得到最好的高清逼真圖像。我只是認為,無論這些視頻在某種意義上是多麼逼真,它們在其他方面都是如此怪異和令人反感,這很吸引人。它們可以快速、任意地生成,這令人難以置信,而且只會越來越好。但是,即使是最好的圖像生成器也仍然有那種超現實的質量,讓人難以琢磨。

Make-A-Video還允許將靜止的圖像和其他視頻轉化為其變體或擴展,就像圖像生成器也可以對圖像本身進行提示。其結果是稍微不那麼令人不安。

這確實是比以前存在AI工具有一個巨大的進步,該團隊應該受到點贊。它還沒有向公眾開放,但你可以先註冊申請,以便加入他們以後決定的任何訪問形式的名單。