DALL-E 2被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯

2022年10月23日13:37:15 教育 1711

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

以画画水平高超而风靡全球的DALL-E 2,语文水平被质疑了。

比如bat这个多义词,就把它给考住了。

a bat is flying over a baseball stadium(一只蝙蝠/球棍从棒球场上飞过)。

结果它画出来的图,蝙蝠和球拍都在天上飞。

DALL-E 2被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯 - 天天要闻

而且这不是偶然的失误,如果输入“a person is hearing a bat”,画出来的还是蝙蝠和球棒都存在。

DALL-E 2被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯 - 天天要闻

换成另一种情况,输入a fish and a gold ingot(一条鱼和一个金锭)。

好嘛,直接把两种东西都铸金了,变成真金·鱼。

DALL-E 2被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯 - 天天要闻

可不能低估了这些失误,因为它们意味着DALL-E 2在根据文本生成图像的过程中,对语言中符号到实体的基本映射关系。

即一个词对应一个实体。

以bat举例,画出蝙蝠或者球棍,都算DALL-E 2理解正确,但是如果两个都给,那就有问题了。

这就好比本身是单选题,填A或B都对,可是把两个都写上就违反了规则。

更何况有时候它还把不同物体的修饰词弄错,“上一道题的解法用在下一道上”。

发现这一问题的,是来自巴伊兰大学、艾伦人工研究智能所的学者们,并且专门写了篇论文分析。

有趣的是,研究人员约阿夫·高柏(Yoav Goldberg)还提到,这种情况在mini DALL-E和Stable Diffusion中并不常见。

我猜这可能是因为所谓的逆规模现象(inverse scaling)。

简单理解就是“模型越大性能越差”。

DALL-E 2被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯 - 天天要闻

论文具体说了啥?

几位学者在发现问题后,又反复进行了多次试验,并把问题主要划分为三种情况:

  • 第一、一个单词被解释为两个不同的事物
  • 第二、一个单词被解释为两个不同事物的修饰词
  • 第三、一个单词在被解释为一个事物的同时,又被理解成另一种事物的修饰词

前两种情况开头已经提过。

第三种情况举例来说,输入“一匹斑马和一条街道”,输出的结果中一直都有斑马线。

在这里,DALL-E 2把斑马同时解释了两次。

DALL-E 2被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯 - 天天要闻

在针对这些情况都重复试验后,作者计算出DALL-E 2在三种情况下,出现失误的概率都超过80%

其中第二种情况的失误率最高,达到97.2%

第三种情况下,如果给另一个名词前加上新的修饰词,可以避免失误发生。

即输入一匹斑马和一条碎石路,路面上就没有斑马线出现了。

DALL-E 2被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯 - 天天要闻

而在用DALL-E mini和Stable Diffusion时,这些重复解释的情况并不常见。

作者解释,未来可以考虑研究模型的文本编解码器来追溯这些问题,并且可以研究这些问题和模型大小、框架是否有关系。

作者之一Yoav Goldberg是巴伊兰大学的杰出教授,也是艾伦人工智能研究院以色列分院的研究主任。

之前,他在纽约的谷歌研究中心做博士后。研究兴趣方向为NLP和机器学习,尤其对语法解析感兴趣。

DALL-E 2被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯 - 天天要闻

还曾发现DALL-E 2自创语言

不过就在几个月之前,一位计算机专业的博士小哥发现,给DALL-E 2喂一些奇怪的语言,它也能生成同一类的图像。

而这些词,正是来自DALL-E 2生成图像中的。

比如输入“两个农民谈论蔬菜,带字幕(Two farmers talking about vegetables, with subtitles)”后,DALL-E 2给出的图像中,出现了一些“乱码”的词汇。

DALL-E 2被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯 - 天天要闻

而如果再把图像中的新词Vicootes”当作描述丢给模型,没想到,出来这样一堆图像:

DALL-E 2被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯 - 天天要闻

萝卜、有南瓜、有小柿子……难道“Vicootes”就代表蔬菜?

如果再把上图气泡中一串“Apoploe vesrreaitais”扔给DALL-E 2,一堆鸟图出现了:

DALL-E 2被吐槽:金子和鱼画成真金·鱼,遇到一词多义就拉胯 - 天天要闻

“难道说,这个单词代表‘鸟’,所以农民们似乎在谈论影响他们蔬菜的鸟类?”

当时,这位博士小哥把自己的发现发布在网络上后,立刻引起热议。

有人试图分析DALL-E 2是如何加密语言的,还有人觉得这只是噪声。

不过总的来说,在语言理解方面,DALL-E 2总能搞出点让人意想不到的事。

你觉得这背后原因到底是什么呢?

论文地址:
https://arxiv.org/pdf/2210.10606.pdf

参考链接:
https://twitter.com/yoavgo/status/1583088957226881025

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

教育分类资讯推荐

60多岁大姐学习“高级养老”,考试没考过欲退款:我就读了一年书 - 天天要闻

60多岁大姐学习“高级养老”,考试没考过欲退款:我就读了一年书

黄大姐今年60多岁,前段时间来杭州看望儿子,打算留下来想找份工作。6月7号,儿子陪她找到了天鹅到家杭州分公司。黄大姐:你交了1980元的钱,学三到四五天,一个星期,就可以分你到养老院,住家的,给人家做饭,都可以,是这样说的。记者:工资呢?黄大姐:工资,他说最低五六千。黄大姐说,当天儿子有点拿不定主意,没交钱...
新概念英语能替代高中英语教材吗?NO,因这3点做不到即空中楼阁 - 天天要闻

新概念英语能替代高中英语教材吗?NO,因这3点做不到即空中楼阁

新概念英语无法替代高中英语教材。高中英语一直差,是词汇量严重不足导致的。也就是做题不认识单词全靠猜。英语考试一猜就离题的正确答案千万里出去了,尤其高考英语真题和模拟题。今天一早上看见我过去海南的学生小张同学妈妈的信息,说孩子上了高中以后英语
成都医学院2025年计划招生2457人,比去年缩招610人 - 天天要闻

成都医学院2025年计划招生2457人,比去年缩招610人

成都医学院2011年成为硕士学位授予单位,四川省博士学位授权立项建设“优先培育”单位,现有硕士学位授权点16个,其中一级学科硕士学位授权点3个、专业学位授权点13个,本科专业24个,国家级一流本科专业建设点4个,现有直属及共建附属医院9所。
2025年成都市中考开考 - 天天要闻

2025年成都市中考开考

原标题:现场多图丨2025年成都市中考即将开考,考生陆续进场!6月13日早上8时许,2025年成都市中考首日,四川师大附中书院分校高中部考点,考生们已经陆续进场,家长们等在街对面。据悉,2025年成都中考于6月13日(周五)、6月14日(周六)举行。今年,成都市中考人数为15.59万人。今年,该市普通高中招生计划总量达10.69万...
我县中考今日开考!8030名学子为梦而战 - 天天要闻

我县中考今日开考!8030名学子为梦而战

仪陇融媒(记者 杨丹)6月13日,我县2025年中考正式拉开帷幕。全县8030名初三学子满怀信心,奔赴考场,迎接人生中的重要挑战。早上7点30分,宏德中学考点外已聚集了不少送考家长。他们或驻足交谈,交流送考心情;或反复叮嘱孩子,为他们加油鼓
取代张雪峰? BAT抢滩“AI高考志愿填报” - 天天要闻

取代张雪峰? BAT抢滩“AI高考志愿填报”

中经记者 李立 上海报道当网红教师张雪峰还在“停播”与“不退网”之间徘徊时,他的竞争对手已经加速迭代。继2025年5月QQ浏览器推出高考Agent“AI高考通”,6月12日,阿里巴巴旗下夸克推出高考志愿大模型,同步上线“高考深度搜索”“志愿报告”“智能选志愿”三大核心功能。“整个过程5—10分钟,模拟资深志愿填报专家的决...