DALL-E 2被吐槽：金子和魚畫成真金·魚，遇到一詞多義就拉胯

分類：教育

瀏覽數：1711

2022-10-23

明敏發自凹非寺
量子位 | 公眾號 QbitAI

以畫畫水平高超而風靡全球的DALL-E 2，語文水平被質疑了。

比如bat這個多義詞，就把它給考住了。

a bat is flying over a baseball stadium（一隻蝙蝠/球棍從棒球場上飛過）。

結果它畫出來的圖，蝙蝠和球拍都在天上飛。

而且這不是偶然的失誤，如果輸入「a person is hearing a bat」，畫出來的還是蝙蝠和球棒都存在。

換成另一種情況，輸入a fish and a gold ingot（一條魚和一個金錠）。

好嘛，直接把兩種東西都鑄金了，變成真金·魚。

可不能低估了這些失誤，因為它們意味著DALL-E 2在根據文本生成圖像的過程中，對語言中符號到實體的基本映射關係。

即一個詞對應一個實體。

以bat舉例，畫出蝙蝠或者球棍，都算DALL-E 2理解正確，但是如果兩個都給，那就有問題了。

這就好比本身是單選題，填A或B都對，可是把兩個都寫上就違反了規則。

更何況有時候它還把不同物體的修飾詞弄錯，「上一道題的解法用在下一道上」。

發現這一問題的，是來自巴伊蘭大學、艾倫人工研究智能所的學者們，並且專門寫了篇論文分析。

有趣的是，研究人員約阿夫·高柏（Yoav Goldberg）還提到，這種情況在mini DALL-E和Stable Diffusion中並不常見。

我猜這可能是因為所謂的逆規模現象（inverse scaling）。

簡單理解就是「模型越大性能越差」。

論文具體說了啥？

幾位學者在發現問題後，又反覆進行了多次試驗，並把問題主要劃分為三種情況：

第一、一個單詞被解釋為兩個不同的事物
第二、一個單詞被解釋為兩個不同事物的修飾詞
第三、一個單詞在被解釋為一個事物的同時，又被理解成另一種事物的修飾詞

前兩種情況開頭已經提過。

第三種情況舉例來說，輸入「一匹斑馬和一條街道」，輸出的結果中一直都有斑馬線。

在這裡，DALL-E 2把斑馬同時解釋了兩次。

在針對這些情況都重複試驗後，作者計算出DALL-E 2在三種情況下，出現失誤的概率都超過80%。

其中第二種情況的失誤率最高，達到97.2%。

第三種情況下，如果給另一個名詞前加上新的修飾詞，可以避免失誤發生。

即輸入一匹斑馬和一條碎石路，路面上就沒有斑馬線出現了。

而在用DALL-E mini和Stable Diffusion時，這些重複解釋的情況並不常見。

作者解釋，未來可以考慮研究模型的文本編解碼器來追溯這些問題，並且可以研究這些問題和模型大小、框架是否有關係。

作者之一Yoav Goldberg是巴伊蘭大學的傑出教授，也是艾倫人工智慧研究院以色列分院的研究主任。

之前，他在紐約的谷歌研究中心做博士後。研究興趣方向為NLP和機器學習，尤其對語法解析感興趣。

還曾發現DALL-E 2自創語言

不過就在幾個月之前，一位計算機專業的博士小哥發現，給DALL-E 2喂一些奇怪的語言，它也能生成同一類的圖像。

而這些詞，正是來自DALL-E 2生成圖像中的。

比如輸入「兩個農民談論蔬菜，帶字幕（Two farmers talking about vegetables, with subtitles）」後，DALL-E 2給出的圖像中，出現了一些「亂碼」的辭彙。

而如果再把圖像中的新詞Vicootes」當作描述丟給模型，沒想到，出來這樣一堆圖像：

有蘿蔔、有南瓜、有小柿子……難道「Vicootes」就代表蔬菜？

如果再把上圖氣泡中一串「Apoploe vesrreaitais」扔給DALL-E 2，一堆鳥圖出現了：

「難道說，這個單詞代表『鳥』，所以農民們似乎在談論影響他們蔬菜的鳥類？」

當時，這位博士小哥把自己的發現發布在網路上後，立刻引起熱議。

有人試圖分析DALL-E 2是如何加密語言的，還有人覺得這只是雜訊。

不過總的來說，在語言理解方面，DALL-E 2總能搞出點讓人意想不到的事。

你覺得這背後原因到底是什麼呢？

論文地址：
https://arxiv.org/pdf/2210.10606.pdf

參考鏈接：
https://twitter.com/yoavgo/status/1583088957226881025

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

「DALL-E 2被吐槽：金子和魚畫成真金·魚，遇到一詞多義就拉胯」相關視頻

教育分類資訊推薦