實測百度「文心一言」,4次迭代後還是翻車了?

2023年05月10日19:09:22 財經 7643

5月4日,百度創始人、董事長兼首席執行官李彥宏在內部活動演講環節表示,算力是可以買來的,創新能力是買不來的,需要自建。但目前來看,國產AI還沒有能得到廣泛認可的產品真正跑出來。


出品 | 微果醬(wjam123456)

作者 | 陳出木


在李彥宏近期的發言中,他提到,文心一言內測一個多月,完成4次大的技術升級,大模型推理成本降到原來的十分之一,或者說推理性能提升近10倍。「當別人剛剛開始思考如何進行訓練的時候,我們已經在推理上衝出了很遠。」

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

這十分自信里,不知道產品體驗能占幾分?

相較於Bing(必應)突然全面開放,文心一言現在仍然處於內測階段,此前申請過內測資格的小夥伴們正在排隊體驗,如果申請成功將收到簡訊通知。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

文心一言的界面和Bing是相似的,不過對於AI小白來說,文心一言的對話框還提供了快捷插入提問模板的功能,只需要輸入「/」即可獲取寫報告、畫畫、查知識的提問模板。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

那麼,文心一言和Bing相比如何呢?果醬妹替大家測試了一下~


01#

中文理解

鑒於文心一言宣稱自己「擅長中文」,果醬妹向它提問了一個經典的中文腦筋急轉彎——能否把大象放進冰箱。但文心一言的腦筋似乎並不能很好地「轉彎」,回答認為大象不能放進冰箱。

經過進一步引導,將問題修改為更常規的謎面「把大象放進冰箱需要幾步」,文心一言才能給出果醬妹想要的答案,同時彷彿沒有意識到這是個腦筋急轉彎,不忘提醒要「充分考慮大象的福祉」。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

果醬妹也問了Bing同樣的問題,它卻能識別出「這是一個著名的連環謎語」,並不需要引導就可以準確給出提問者真正想知道的答案。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

腦筋轉不了彎沒關係,那麼作為中文寫作的輔助工具,文心一言的表現如何呢?

果醬妹將體驗文心一言的選題任務交給了它,直接生成的文章近似於初中生寫作水平,但遣詞造句顯得生硬,需要後期進行人工優化。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

而面對果醬妹提出的細化要求,文心一言展現了簡單在原文章中加了一段的偷懶操作。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

直到果醬妹質疑其不懂「細化」,文心一言開始出現聽懂命令但「婉拒」作答的情況——我理解細化但不想干,輸出的還是原文。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

相比閃現反骨的文心一言,Bing更像是在乖巧中透著敷衍。面對寫文章的要求,Bing總是會先推薦相關閱讀文章,不打算接茬寫稿,等到提問者進一步要求,它會在認真交互一輪之後給出一篇不太及格的短文。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

可見,兩者對於文字工作都只能做到匯總網路資料的程度,更進一步則還是得依靠人類進行編排和串聯。而再細看會發現,文心一言生成的文章比Bing生成的文章會多一些連接詞和過渡句,更加符合中文創作習慣。

這一點在果醬妹讓兩者用「天氣真好」作一首藏頭詩時也有所體現。

Bing顯然不太能理解「藏頭詩」,給出的結果差強人意,只是反手給了一個可用的「藏頭詩在線生成器」鏈接。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

而文心一言在傳統文化領域基本完勝,輕鬆生成符合要求的藏頭詩。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞


02#

信息檢索

作為都是接入了AI的搜索引擎,對於普通用戶來說,信息檢索或許是用得最多的功能。這就要求AI輸出的回答必須是準確的,否則其他功能玩得再花也難以獲得大眾的青睞。

在測試過程中,對於確定的信息,諸如某本書的作者、某個名人的生日等,文心一言和Bing都可以輕鬆駕馭。但如果提問最近的新聞或網路熱梗等,兩位AI都可能會給出錯誤的答案。

比如關於「GPT-5什麼時候發布」這個問題,此前有諸多媒體報道將在今年發布,實際上OpenAI的創始人在前幾天對此作了闢謠。

而顯然,文心一言只注意到此前的信息,忽略了最新的內容。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

Bing也犯了同樣的錯誤。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞


03#

AI繪畫

在這個環節的測試中,果醬妹讓文心一言和Bing分別畫畫:

畫一幅畫:一位扎著馬尾辮的美少女在陽光下奔跑,二次元畫風,色彩豐富,展現出快樂、自由的感覺,穿著白色背心、黃色短褲、白色運動鞋

Bing首先表示自己不能畫畫,但可以提供找靈感的渠道以及網路圖片集合。就提供的圖片搜索結果來看,和果醬妹提出的要求屬實差得有點遠。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

而有AI繪畫平台文心一格支撐著的文心一言,在經過幾輪交互、引導之後,能給出一張滿足部分要求的畫作。過程中,文心一言出現的較大缺陷集中在AI一直難以駕馭的手部和眼睛細節。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞


04#

解答數學題

果醬妹找了幾道數學題給兩個AI試手,結果半斤八兩,稍稍需要邏輯能力的題目基本都無法解答。

文心一言屬於一本正經胡說八道型,一堆數學符號之後得出錯誤答案。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

在投餵了正確答案之後,文心一言通過錯誤的算式強行得出既定答案。無論果醬妹如何質疑,文心一言都保持著禮貌但瞎說的解題態度。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

Bing則屬於碰運氣的差生,同樣的題目首次解答錯誤,在得到答案之後就順利地推導出了過程。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

但當果醬妹興緻勃勃地提問了更難的題目之後,Bing便招架不住了,也出現了強行推導既定答案的情況。根據其底部出現的來源,果醬妹猜測是因為Bing沒有組卷網的會員,所以沒辦法輸出正確答案。(這一刻簡直能與AI共情)


05#

寫在最後

經過對文心一言和Bing的不完全測試,大家會發現,兩者仍然存在差距,但差距並沒有大家想像的那般如鴻溝。

目前AI普遍做不來的任務,文心一言和Bing都無法解決。而在AI的功能舒適區中,文心一言的交互會讓你感受到AI的生硬感,Bing的應答則更加流暢。

但作為一款工具,實用性應該在第一位。兩者都屬於接入AI的搜索引擎範疇,最關鍵的是能夠解決用戶提出的問題。就目前來看,完全依賴AI作答,以替代人工檢索,暫時還不能夠實現,如果只是作為工作輔助,它們確實已經展現出一定優勢。

可以說,經過一個多月的內測,文心一言有了更多的語料投喂,確實表現出了成長的效果。但其優勢如果只有對中文的理解,普通大眾很難放棄同樣支持中文且經過更長時間訓練的Bing。

不過,現在下定論仍然過早,文心一言還在發展初期,讓我們期待其正式開放那天,看看是否如李彥宏所說完成了國產AI的自建。而退一萬步說,比起Bing,文心一言的最大優勢應該是不需要科學上網吧。

財經分類資訊推薦

美關稅政策搞亂自家企業 多家美國公司暫停發布盈利預測 - 天天要聞

美關稅政策搞亂自家企業 多家美國公司暫停發布盈利預測

據美國有線電視新聞網當地時間5月4日報道,由於美國近期關稅政策反覆無常,全球多家大型車企推遲或暫停發布盈利預測。報道稱,車企巨頭斯泰蘭蒂斯集團4月30日發布報告表示,由於「不斷變化的」關稅政策帶來的影響,該集團暫停發布2025年的盈利增長預
螺紋鋼 | 需求旺季尾聲將至,螺紋鋼價格震蕩承壓前行 - 天天要聞

螺紋鋼 | 需求旺季尾聲將至,螺紋鋼價格震蕩承壓前行

板塊導讀觀察上周黑色系列市場行情,供應端持續寬鬆態勢明顯,鋼廠開工率延續上升趨勢,鐵水產量創出新高,反映出生產端保持強勁動能,整個黑色系列走勢較弱,需重點關注減產政策的落地情況以及需求端的實際變化程度,這兩大因素將決定市場的運行方向。
繁榮活躍!「五一」假期全國重點零售和餐飲企業銷售額同比增長6.3% - 天天要聞

繁榮活躍!「五一」假期全國重點零售和餐飲企業銷售額同比增長6.3%

記者5月5日從商務部獲悉,2025年「五一」假期,全國消費市場繁榮活躍。據商務部商務大數據監測,假期全國重點零售和餐飲企業銷售額同比增長6.3%。以舊換新備受歡迎。2025年初至5月5日0時,汽車以舊換新補貼申請量突破300萬份;消費者購買12大類家電以舊換新產品5516萬台,購買手機等數碼產品4167萬件。假期前四天,汽車以舊...
強勁反彈,發生了什麼? - 天天要聞

強勁反彈,發生了什麼?

原創 劉曉博今天(5月5日)是小長假的最後一天,由於是周一,海外市場基本上正常交易。今天最引人注目的是:人民幣離岸匯率的大漲,以及國際油價的暴跌。今天上午,當我寫這篇稿件的時候,離岸人民幣匯率(對美元)為7.1888元兌換1美元,創出了去年11月以來的新高。特朗普拋出對等關稅後,人民幣對美元匯率一度貶值到了7.4...
駕馭特朗普風暴 - 天天要聞

駕馭特朗普風暴

如果說特朗普政府有應對這一挑戰的戰略,那麼它還沒透露是什麼戰略。但如果認為調整國際貿易和投資結構就足以讓美國工人受益,就大錯特錯了。
連續跌停!機器人概念股,擬退市! - 天天要聞

連續跌停!機器人概念股,擬退市!

機器人熱潮下,從事工業機器人相關業務的*ST工智卻面臨退市。5月5日晚,*ST工智(000584)公告,已收到深交所送達的《終止上市事先告知書》,深交所決定終止公司股票上市交易。*ST工智擬被終止上市*ST工智全稱江蘇哈工智能機器人股份有限
6家上市公司晚間發布分紅派息重要消息(5.5日) - 天天要聞

6家上市公司晚間發布分紅派息重要消息(5.5日)

一、福達股份:公司2024年年度權益分派實施的公告公司公告,公司以實施權益分派股權登記日登記的總股本扣減公司回購專用證券賬戶的股數 為基數,向全體股東每 10 股派發現金紅利人民幣1.0元(含稅)。股權登記日5月9日。
罰沒3.25億元!三家公司涉嫌原料葯壟斷 - 天天要聞

罰沒3.25億元!三家公司涉嫌原料葯壟斷

涉地塞米松磷酸鈉原料葯壟斷,三家上市公司合計被罰沒3.25億元。5月5日,仙琚製藥(002332.SZ)發布公告稱,公司於4月30日收到天津市市場監督管理委員會下發的《行政處罰決定書》,合計被罰沒1.95億元。
萬億GDP城市,再添1所「雙一流」 - 天天要聞

萬億GDP城市,再添1所「雙一流」

據南京醫科大學官網消息,近日,南京醫科大學與常州市召開常州校區建設工作專題會議。南京醫科大學黨委書記蘭青、校長鬍志斌與常州市委書記王劍鋒、市長周偉會晤,就進一步深化校地戰略合作進行會談,會上提到:全力以赴保障常州校區2025年9月份招生運行。此前,2023年8月18日,常州市政府與南京醫科大學共建南京醫科大學常...