DALL-E 2被吐槽:金子和魚畫成真金·魚,遇到一詞多義就拉胯

2022年10月23日13:37:15 教育 1711

明敏 發自 凹非寺

量子位 | 公眾號 QbitAI

以畫畫水平高超而風靡全球的DALL-E 2,語文水平被質疑了。

比如bat這個多義詞,就把它給考住了。

a bat is flying over a baseball stadium(一隻蝙蝠/球棍從棒球場上飛過)。

結果它畫出來的圖,蝙蝠和球拍都在天上飛。

DALL-E 2被吐槽:金子和魚畫成真金·魚,遇到一詞多義就拉胯 - 天天要聞

而且這不是偶然的失誤,如果輸入「a person is hearing a bat」,畫出來的還是蝙蝠和球棒都存在。

DALL-E 2被吐槽:金子和魚畫成真金·魚,遇到一詞多義就拉胯 - 天天要聞

換成另一種情況,輸入a fish and a gold ingot(一條魚和一個金錠)。

好嘛,直接把兩種東西都鑄金了,變成真金·魚。

DALL-E 2被吐槽:金子和魚畫成真金·魚,遇到一詞多義就拉胯 - 天天要聞

可不能低估了這些失誤,因為它們意味著DALL-E 2在根據文本生成圖像的過程中,對語言中符號到實體的基本映射關係。

即一個詞對應一個實體。

以bat舉例,畫出蝙蝠或者球棍,都算DALL-E 2理解正確,但是如果兩個都給,那就有問題了。

這就好比本身是單選題,填A或B都對,可是把兩個都寫上就違反了規則。

更何況有時候它還把不同物體的修飾詞弄錯,「上一道題的解法用在下一道上」。

發現這一問題的,是來自巴伊蘭大學、艾倫人工研究智能所的學者們,並且專門寫了篇論文分析。

有趣的是,研究人員約阿夫·高柏(Yoav Goldberg)還提到,這種情況在mini DALL-E和Stable Diffusion中並不常見。

我猜這可能是因為所謂的逆規模現象(inverse scaling)。

簡單理解就是「模型越大性能越差」。

DALL-E 2被吐槽:金子和魚畫成真金·魚,遇到一詞多義就拉胯 - 天天要聞

論文具體說了啥?

幾位學者在發現問題後,又反覆進行了多次試驗,並把問題主要劃分為三種情況:

  • 第一、一個單詞被解釋為兩個不同的事物
  • 第二、一個單詞被解釋為兩個不同事物的修飾詞
  • 第三、一個單詞在被解釋為一個事物的同時,又被理解成另一種事物的修飾詞

前兩種情況開頭已經提過。

第三種情況舉例來說,輸入「一匹斑馬和一條街道」,輸出的結果中一直都有斑馬線。

在這裡,DALL-E 2把斑馬同時解釋了兩次。

DALL-E 2被吐槽:金子和魚畫成真金·魚,遇到一詞多義就拉胯 - 天天要聞

在針對這些情況都重複試驗後,作者計算出DALL-E 2在三種情況下,出現失誤的概率都超過80%

其中第二種情況的失誤率最高,達到97.2%

第三種情況下,如果給另一個名詞前加上新的修飾詞,可以避免失誤發生。

即輸入一匹斑馬和一條碎石路,路面上就沒有斑馬線出現了。

DALL-E 2被吐槽:金子和魚畫成真金·魚,遇到一詞多義就拉胯 - 天天要聞

而在用DALL-E mini和Stable Diffusion時,這些重複解釋的情況並不常見。

作者解釋,未來可以考慮研究模型的文本編解碼器來追溯這些問題,並且可以研究這些問題和模型大小、框架是否有關係。

作者之一Yoav Goldberg是巴伊蘭大學的傑出教授,也是艾倫人工智慧研究院以色列分院的研究主任。

之前,他在紐約的谷歌研究中心做博士後。研究興趣方向為NLP和機器學習,尤其對語法解析感興趣。

DALL-E 2被吐槽:金子和魚畫成真金·魚,遇到一詞多義就拉胯 - 天天要聞

還曾發現DALL-E 2自創語言

不過就在幾個月之前,一位計算機專業的博士小哥發現,給DALL-E 2喂一些奇怪的語言,它也能生成同一類的圖像。

而這些詞,正是來自DALL-E 2生成圖像中的。

比如輸入「兩個農民談論蔬菜,帶字幕(Two farmers talking about vegetables, with subtitles)」後,DALL-E 2給出的圖像中,出現了一些「亂碼」的辭彙。

DALL-E 2被吐槽:金子和魚畫成真金·魚,遇到一詞多義就拉胯 - 天天要聞

而如果再把圖像中的新詞Vicootes」當作描述丟給模型,沒想到,出來這樣一堆圖像:

DALL-E 2被吐槽:金子和魚畫成真金·魚,遇到一詞多義就拉胯 - 天天要聞

蘿蔔、有南瓜、有小柿子……難道「Vicootes」就代表蔬菜?

如果再把上圖氣泡中一串「Apoploe vesrreaitais」扔給DALL-E 2,一堆鳥圖出現了:

DALL-E 2被吐槽:金子和魚畫成真金·魚,遇到一詞多義就拉胯 - 天天要聞

「難道說,這個單詞代表『鳥』,所以農民們似乎在談論影響他們蔬菜的鳥類?」

當時,這位博士小哥把自己的發現發布在網路上後,立刻引起熱議。

有人試圖分析DALL-E 2是如何加密語言的,還有人覺得這只是雜訊。

不過總的來說,在語言理解方面,DALL-E 2總能搞出點讓人意想不到的事。

你覺得這背後原因到底是什麼呢?

論文地址:
https://arxiv.org/pdf/2210.10606.pdf

參考鏈接:
https://twitter.com/yoavgo/status/1583088957226881025

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

教育分類資訊推薦

安徽多地暑假時間公布! - 天天要聞

安徽多地暑假時間公布!

天氣越來越熱何時放暑假?近期安徽多地陸續公布2025年中小學(幼兒園)暑假放假時間為大家梳理如下合肥義務教育學校:放假:6月30日(周一)報到:8月31日(周日)正式上課:9月1日(周一)幼兒園暑假時間參照義務教育學校執行。
衡水一高中讓高考當天將行李搬至戶外被雨淋:人還沒走茶就涼了?!這就是衡水模式上的最後一課嗎? - 天天要聞

衡水一高中讓高考當天將行李搬至戶外被雨淋:人還沒走茶就涼了?!這就是衡水模式上的最後一課嗎?

看到這件事情,我其實最好奇的是,最近在我私信和評論區拚命維護衡水模式的那些人會有怎樣的想法呢?6月9日,有網友在社交平台發布視頻反映,6月7、8、9號是高考,但河北衡水武邑宏達實驗中學6月8日就讓高考生搬行李,但第二天還要考試啊,所以搬不了,結果6月9日上午、中午又讓考生家長抓緊時間將鋪蓋、行李等搬出去,把宿...
煙台市2025年中考結束,6月28日公布成績 - 天天要聞

煙台市2025年中考結束,6月28日公布成績

齊魯晚報·齊魯壹點 李楠楠6月14日下午,隨著最後一門英語科目的考試結束,煙台市2025年中考落下帷幕,5.19萬名初四學生經歷了人生的第一場大考。今年中考成績將於6月28日公布,7月7日起填報志願。煙台五中考點,考試結束後考生微笑走出考場
北京多所高校禁用羅馬仕充電寶 涉事公司致歉:有缺陷產品將擔責 - 天天要聞

北京多所高校禁用羅馬仕充電寶 涉事公司致歉:有缺陷產品將擔責

6月14日,深圳羅馬仕科技有限公司官方微博發布聲明,詳情:對於近期「北京多所高校禁用羅馬仕充電寶」事件的討論,我們就給師生及公眾帶來的困擾致以誠摯歉意,在此鄭重承諾:任何經權威機構鑒定存在缺陷的羅馬仕產品,我們將依法承擔全部責任。同時,我們高度重視此事,並第一時間展開核查,與北京市教育委員會等相關部門...
隆安縣:暑期防溺水 安全「不放假」 - 天天要聞

隆安縣:暑期防溺水 安全「不放假」

【來源:隆安融媒體】暑假臨近,為守護好學生的假期安全,6月14日上午,2025年隆安縣防溺水和游泳安全教育活動暨游泳訓練成果展示活動在隆安縣全民健身活動中心游泳館舉行,多所學校的師生及家長代表等近100人參加。活動中,水上救生員帶來的防溺水
武大通報職工子女逼停學生:性質惡劣!通勤特權如何破? - 天天要聞

武大通報職工子女逼停學生:性質惡劣!通勤特權如何破?

傍晚的珞珈山路,三名學生騎著共享電動車緩緩前行。突然,一輛黑色轎車加速超車,猛打方向橫在路中間——刺耳的剎車聲中,學生連人帶車險些摔倒。這不是飆車電影,而是2025年5月發生在武漢大學的真實一幕。更讓人心寒的是,駕車者辛某的身份:武漢大學一名職工的子女。當校方通報「取消該車校園通行權三個月」處罰時,評論...
文化藝術經營博士可以申請哪些大學?詳解院校選擇與申請方向 - 天天要聞

文化藝術經營博士可以申請哪些大學?詳解院校選擇與申請方向

近年來,越來越多熱愛文化藝術、致力於管理與策劃方向深造的同學,將目光投向了「文化藝術經營博士」這個兼具專業性與實踐性的交叉學科。相比傳統純藝術或純管理博士,「文化藝術經營」博士更加註重理論研究+產業實務的結合,在藝術管理、文化政策、藝術市場
北京多所高校禁用羅馬仕充電寶!剛剛,羅馬仕發布公開聲明 - 天天要聞

北京多所高校禁用羅馬仕充電寶!剛剛,羅馬仕發布公開聲明

6月14日,@ROMOSS羅馬仕 發公開聲明:對於近期「北京多所高校禁用羅馬仕充電寶」事件的討論,我們就給師生及公眾帶來的困擾致以誠摯歉意,在此鄭重承諾:任何經權威機構鑒定存在缺陷的羅馬仕產品,我們將依法承擔全部責任。同時,我們高度重視此事,並第一時間展開核查,與北京市教育委員會等相關部門取得溝通,截至到公告...