实测百度「文心一言」,4次迭代后还是翻车了?

2023年05月10日19:09:22 财经 7643

5月4日,百度创始人、董事长兼首席执行官李彦宏在内部活动演讲环节表示,算力是可以买来的,创新能力是买不来的,需要自建。但目前来看,国产AI还没有能得到广泛认可的产品真正跑出来。


出品 | 微果酱(wjam123456)

作者 | 陈出木


在李彦宏近期的发言中,他提到,文心一言内测一个多月,完成4次大的技术升级,大模型推理成本降到原来的十分之一,或者说推理性能提升近10倍。“当别人刚刚开始思考如何进行训练的时候,我们已经在推理上冲出了很远。”

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

这十分自信里,不知道产品体验能占几分?

相较于Bing(必应)突然全面开放,文心一言现在仍然处于内测阶段,此前申请过内测资格的小伙伴们正在排队体验,如果申请成功将收到短信通知。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

文心一言的界面和Bing是相似的,不过对于AI小白来说,文心一言的对话框还提供了快捷插入提问模板的功能,只需要输入“/”即可获取写报告、画画、查知识的提问模板。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

那么,文心一言和Bing相比如何呢?果酱妹替大家测试了一下~


01#

中文理解

鉴于文心一言宣称自己“擅长中文”,果酱妹向它提问了一个经典的中文脑筋急转弯——能否把大象放进冰箱。但文心一言的脑筋似乎并不能很好地“转弯”,回答认为大象不能放进冰箱。

经过进一步引导,将问题修改为更常规的谜面“把大象放进冰箱需要几步”,文心一言才能给出果酱妹想要的答案,同时仿佛没有意识到这是个脑筋急转弯,不忘提醒要“充分考虑大象的福祉”。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

果酱妹也问了Bing同样的问题,它却能识别出“这是一个著名的连环谜语”,并不需要引导就可以准确给出提问者真正想知道的答案。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

脑筋转不了弯没关系,那么作为中文写作的辅助工具,文心一言的表现如何呢?

果酱妹将体验文心一言的选题任务交给了它,直接生成的文章近似于初中生写作水平,但遣词造句显得生硬,需要后期进行人工优化。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

而面对果酱妹提出的细化要求,文心一言展现了简单在原文章中加了一段的偷懒操作。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

直到果酱妹质疑其不懂“细化”,文心一言开始出现听懂命令但“婉拒”作答的情况——我理解细化但不想干,输出的还是原文。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

相比闪现反骨的文心一言,Bing更像是在乖巧中透着敷衍。面对写文章的要求,Bing总是会先推荐相关阅读文章,不打算接茬写稿,等到提问者进一步要求,它会在认真交互一轮之后给出一篇不太及格的短文。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

可见,两者对于文字工作都只能做到汇总网络资料的程度,更进一步则还是得依靠人类进行编排和串联。而再细看会发现,文心一言生成的文章比Bing生成的文章会多一些连接词和过渡句,更加符合中文创作习惯。

这一点在果酱妹让两者用“天气真好”作一首藏头诗时也有所体现。

Bing显然不太能理解“藏头诗”,给出的结果差强人意,只是反手给了一个可用的“藏头诗在线生成器”链接。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

而文心一言在传统文化领域基本完胜,轻松生成符合要求的藏头诗。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻


02#

信息检索

作为都是接入了AI的搜索引擎,对于普通用户来说,信息检索或许是用得最多的功能。这就要求AI输出的回答必须是准确的,否则其他功能玩得再花也难以获得大众的青睐。

在测试过程中,对于确定的信息,诸如某本书的作者、某个名人的生日等,文心一言和Bing都可以轻松驾驭。但如果提问最近的新闻或网络热梗等,两位AI都可能会给出错误的答案。

比如关于“GPT-5什么时候发布”这个问题,此前有诸多媒体报道将在今年发布,实际上OpenAI的创始人在前几天对此作了辟谣。

而显然,文心一言只注意到此前的信息,忽略了最新的内容。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

Bing也犯了同样的错误。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻


03#

AI绘画

在这个环节的测试中,果酱妹让文心一言和Bing分别画画:

画一幅画:一位扎着马尾辫的美少女在阳光下奔跑,二次元画风,色彩丰富,展现出快乐、自由的感觉,穿着白色背心、黄色短裤、白色运动鞋

Bing首先表示自己不能画画,但可以提供找灵感的渠道以及网络图片集合。就提供的图片搜索结果来看,和果酱妹提出的要求属实差得有点远。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

而有AI绘画平台文心一格支撑着的文心一言,在经过几轮交互、引导之后,能给出一张满足部分要求的画作。过程中,文心一言出现的较大缺陷集中在AI一直难以驾驭的手部和眼睛细节。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻


04#

解答数学题

果酱妹找了几道数学题给两个AI试手,结果半斤八两,稍稍需要逻辑能力的题目基本都无法解答。

文心一言属于一本正经胡说八道型,一堆数学符号之后得出错误答案。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

在投喂了正确答案之后,文心一言通过错误的算式强行得出既定答案。无论果酱妹如何质疑,文心一言都保持着礼貌但瞎说的解题态度。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

Bing则属于碰运气的差生,同样的题目首次解答错误,在得到答案之后就顺利地推导出了过程。

实测百度「文心一言」,4次迭代后还是翻车了? - 天天要闻

但当果酱妹兴致勃勃地提问了更难的题目之后,Bing便招架不住了,也出现了强行推导既定答案的情况。根据其底部出现的来源,果酱妹猜测是因为Bing没有组卷网的会员,所以没办法输出正确答案。(这一刻简直能与AI共情)


05#

写在最后

经过对文心一言和Bing的不完全测试,大家会发现,两者仍然存在差距,但差距并没有大家想象的那般如鸿沟。

目前AI普遍做不来的任务,文心一言和Bing都无法解决。而在AI的功能舒适区中,文心一言的交互会让你感受到AI的生硬感,Bing的应答则更加流畅。

但作为一款工具,实用性应该在第一位。两者都属于接入AI的搜索引擎范畴,最关键的是能够解决用户提出的问题。就目前来看,完全依赖AI作答,以替代人工检索,暂时还不能够实现,如果只是作为工作辅助,它们确实已经展现出一定优势。

可以说,经过一个多月的内测,文心一言有了更多的语料投喂,确实表现出了成长的效果。但其优势如果只有对中文的理解,普通大众很难放弃同样支持中文且经过更长时间训练的Bing。

不过,现在下定论仍然过早,文心一言还在发展初期,让我们期待其正式开放那天,看看是否如李彦宏所说完成了国产AI的自建。而退一万步说,比起Bing,文心一言的最大优势应该是不需要科学上网吧。

财经分类资讯推荐

临沂商城价格指数分析(6月5日—6月11日) - 天天要闻

临沂商城价格指数分析(6月5日—6月11日)

【来源:中国财经报】据临沂商城价格指数信息系统监测,本周临沂商城周价格总指数为102.94点,环比下跌0.03点,跌幅0.03%。 在14类商品价格指数中,上涨的4类、持平的6类、下跌的4类。
金价、原油,大涨! - 天天要闻

金价、原油,大涨!

刚刚,现货金价涨超3440美元/盎司,日内涨幅已超过1.6%,刷新5月7日以来新高。今天一早,现货黄金快速拉升,站上3400美元/盎司。ETF方面,截至9点35分,黄金ETF(518880)早盘强势上涨1.57%。与此同时,黄金股票ETF(
选股逻辑:用“笨眼光”筛选安全标的 - 天天要闻

选股逻辑:用“笨眼光”筛选安全标的

锁定高股息资产选择连续5年股息率超5%的标的(如四大行),这类企业通常现金流稳定,分红政策可持续。以工商银行为例,近十年平均股息率超7%,远超同期定存利率 。聚焦行业龙头在消费、医药等弱周期行业挑选市占率前三的企业,如贵州茅台、恒瑞医药。
洋河股份股东大会现场:坚定长期主义,穿越行业周期 - 天天要闻

洋河股份股东大会现场:坚定长期主义,穿越行业周期

6月12日,洋河股份2024年度股东大会在酒都宿迁召开,大会审议通过了包括《2024年度董事会工作报告》《2024年度监事会工作报告》《关于公司2024年度利润分配的议案》在内的六项议案。围绕企业发展机遇和挑战、外部行业趋势和未来发展思路等资本市场关心关切的热点问题,洋河管理层与股东代表、券商分析师、机构投资者分享交...
AI新闻日历:2025陆家嘴论坛开幕;国内成品油调价窗口开启;金爵奖揭晓 - 天天要闻

AI新闻日历:2025陆家嘴论坛开幕;国内成品油调价窗口开启;金爵奖揭晓

下周国内外有哪些大事发生?有哪些事情会关乎我们的生活?这是一篇利用AI工具(豆包)辅助生成的作品,我们希望结合编辑与AI的视角,给大家提供一份较为详细的新闻日历。6月16日国家统计局发布多项报告,国民经济运行数据出炉9:30,商品住宅销售价格指数月度报告将率先发布。10:00,国家统计局将先后公布国民经济运行情况以...
几块钱的玻璃存10TB数据?光谷的“金融外挂”已上线 - 天天要闻

几块钱的玻璃存10TB数据?光谷的“金融外挂”已上线

科技创新蕴藏着巨大的价值,但只有落到产业上,科技成果才能转化为现实生产力。当蓬勃发展的科技金融走进热火朝天实验室,能否助力科研团队实现从实验室到生产线的“关键一跃”呢?在武汉东湖高新区。这片被誉为中国光谷的热土,既是科技创新的前沿阵地,更是孕育创新成果的丰饶之地。究竟是什么让这里持续迸发创新活力?当...
工信部回应17家车企“60天账期”承诺 - 天天要闻

工信部回应17家车企“60天账期”承诺

快科技6月12日消息,日前,包括一汽、东风、广汽、赛力斯在内的17家重点汽车企业发表声明,承诺对供应商的支付账期不超过60天。这一举措旨在改善供应商的资金周转状况,促进产业链的稳定发展。