實測百度「文心一言」,4次迭代後還是翻車了?

2023年05月10日19:09:22 財經 7643

5月4日,百度創始人、董事長兼首席執行官李彥宏在內部活動演講環節表示,算力是可以買來的,創新能力是買不來的,需要自建。但目前來看,國產AI還沒有能得到廣泛認可的產品真正跑出來。


出品 | 微果醬(wjam123456)

作者 | 陳出木


在李彥宏近期的發言中,他提到,文心一言內測一個多月,完成4次大的技術升級,大模型推理成本降到原來的十分之一,或者說推理性能提升近10倍。「當別人剛剛開始思考如何進行訓練的時候,我們已經在推理上衝出了很遠。」

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

這十分自信里,不知道產品體驗能占幾分?

相較於Bing(必應)突然全面開放,文心一言現在仍然處於內測階段,此前申請過內測資格的小夥伴們正在排隊體驗,如果申請成功將收到短訊通知。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

文心一言的界面和Bing是相似的,不過對於AI小白來說,文心一言的對話框還提供了快捷插入提問模板的功能,只需要輸入「/」即可獲取寫報告、畫畫、查知識的提問模板。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

那麼,文心一言和Bing相比如何呢?果醬妹替大家測試了一下~


01#

中文理解

鑒於文心一言宣稱自己「擅長中文」,果醬妹向它提問了一個經典的中文腦筋急轉彎——能否把大象放進冰箱。但文心一言的腦筋似乎並不能很好地「轉彎」,回答認為大象不能放進冰箱。

經過進一步引導,將問題修改為更常規的謎面「把大象放進冰箱需要幾步」,文心一言才能給出果醬妹想要的答案,同時彷彿沒有意識到這是個腦筋急轉彎,不忘提醒要「充分考慮大象的福祉」。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

果醬妹也問了Bing同樣的問題,它卻能識別出「這是一個著名的連環謎語」,並不需要引導就可以準確給出提問者真正想知道的答案。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

腦筋轉不了彎沒關係,那麼作為中文寫作的輔助工具,文心一言的表現如何呢?

果醬妹將體驗文心一言的選題任務交給了它,直接生成的文章近似於初中生寫作水平,但遣詞造句顯得生硬,需要後期進行人工優化。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

而面對果醬妹提出的細化要求,文心一言展現了簡單在原文章中加了一段的偷懶操作。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

直到果醬妹質疑其不懂「細化」,文心一言開始出現聽懂命令但「婉拒」作答的情況——我理解細化但不想干,輸出的還是原文。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

相比閃現反骨的文心一言,Bing更像是在乖巧中透着敷衍。面對寫文章的要求,Bing總是會先推薦相關閱讀文章,不打算接茬寫稿,等到提問者進一步要求,它會在認真交互一輪之後給出一篇不太及格的短文。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

可見,兩者對於文字工作都只能做到匯總網絡資料的程度,更進一步則還是得依靠人類進行編排和串聯。而再細看會發現,文心一言生成的文章比Bing生成的文章會多一些連接詞和過渡句,更加符合中文創作習慣。

這一點在果醬妹讓兩者用「天氣真好」作一首藏頭詩時也有所體現。

Bing顯然不太能理解「藏頭詩」,給出的結果差強人意,只是反手給了一個可用的「藏頭詩在線生成器」鏈接。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

而文心一言在傳統文化領域基本完勝,輕鬆生成符合要求的藏頭詩。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞


02#

信息檢索

作為都是接入了AI的搜索引擎,對於普通用戶來說,信息檢索或許是用得最多的功能。這就要求AI輸出的回答必須是準確的,否則其他功能玩得再花也難以獲得大眾的青睞。

在測試過程中,對於確定的信息,諸如某本書的作者、某個名人的生日等,文心一言和Bing都可以輕鬆駕馭。但如果提問最近的新聞或網絡熱梗等,兩位AI都可能會給出錯誤的答案。

比如關於「GPT-5什麼時候發佈」這個問題,此前有諸多媒體報道將在今年發佈,實際上OpenAI的創始人在前幾天對此作了闢謠。

而顯然,文心一言只注意到此前的信息,忽略了最新的內容。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

Bing也犯了同樣的錯誤。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞


03#

AI繪畫

在這個環節的測試中,果醬妹讓文心一言和Bing分別畫畫:

畫一幅畫:一位扎着馬尾辮的美少女在陽光下奔跑,二次元畫風,色彩豐富,展現出快樂、自由的感覺,穿着白色背心、黃色短褲、白色運動鞋

Bing首先表示自己不能畫畫,但可以提供找靈感的渠道以及網絡圖片集合。就提供的圖片搜索結果來看,和果醬妹提出的要求屬實差得有點遠。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

而有AI繪畫平台文心一格支撐着的文心一言,在經過幾輪交互、引導之後,能給出一張滿足部分要求的畫作。過程中,文心一言出現的較大缺陷集中在AI一直難以駕馭的手部和眼睛細節。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞


04#

解答數學題

果醬妹找了幾道數學題給兩個AI試手,結果半斤八兩,稍稍需要邏輯能力的題目基本都無法解答。

文心一言屬於一本正經胡說八道型,一堆數學符號之後得出錯誤答案。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

在投餵了正確答案之後,文心一言通過錯誤的算式強行得出既定答案。無論果醬妹如何質疑,文心一言都保持着禮貌但瞎說的解題態度。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

Bing則屬於碰運氣的差生,同樣的題目首次解答錯誤,在得到答案之後就順利地推導出了過程。

實測百度「文心一言」,4次迭代後還是翻車了? - 天天要聞

但當果醬妹興緻勃勃地提問了更難的題目之後,Bing便招架不住了,也出現了強行推導既定答案的情況。根據其底部出現的來源,果醬妹猜測是因為Bing沒有組卷網的會員,所以沒辦法輸出正確答案。(這一刻簡直能與AI共情)


05#

寫在最後

經過對文心一言和Bing的不完全測試,大家會發現,兩者仍然存在差距,但差距並沒有大家想像的那般如鴻溝。

目前AI普遍做不來的任務,文心一言和Bing都無法解決。而在AI的功能舒適區中,文心一言的交互會讓你感受到AI的生硬感,Bing的應答則更加流暢。

但作為一款工具,實用性應該在第一位。兩者都屬於接入AI的搜索引擎範疇,最關鍵的是能夠解決用戶提出的問題。就目前來看,完全依賴AI作答,以替代人工檢索,暫時還不能夠實現,如果只是作為工作輔助,它們確實已經展現出一定優勢。

可以說,經過一個多月的內測,文心一言有了更多的語料投喂,確實表現出了成長的效果。但其優勢如果只有對中文的理解,普通大眾很難放棄同樣支持中文且經過更長時間訓練的Bing。

不過,現在下定論仍然過早,文心一言還在發展初期,讓我們期待其正式開放那天,看看是否如李彥宏所說完成了國產AI的自建。而退一萬步說,比起Bing,文心一言的最大優勢應該是不需要科學上網吧。

財經分類資訊推薦

臨沂商城價格指數分析(6月5日—6月11日) - 天天要聞

臨沂商城價格指數分析(6月5日—6月11日)

【來源:中國財經報】據臨沂商城價格指數信息系統監測,本周臨沂商城周價格總指數為102.94點,環比下跌0.03點,跌幅0.03%。 在14類商品價格指數中,上漲的4類、持平的6類、下跌的4類。
金價、原油,大漲! - 天天要聞

金價、原油,大漲!

剛剛,現貨金價漲超3440美元/盎司,日內漲幅已超過1.6%,刷新5月7日以來新高。今天一早,現貨黃金快速拉升,站上3400美元/盎司。ETF方面,截至9點35分,黃金ETF(518880)早盤強勢上漲1.57%。與此同時,黃金股票ETF(
選股邏輯:用「笨眼光」篩選安全標的 - 天天要聞

選股邏輯:用「笨眼光」篩選安全標的

鎖定高股息資產選擇連續5年股息率超5%的標的(如四大行),這類企業通常現金流穩定,分紅政策可持續。以工商銀行為例,近十年平均股息率超7%,遠超同期定存利率 。聚焦行業龍頭在消費、醫藥等弱周期行業挑選市佔率前三的企業,如貴州茅台、恆瑞醫藥。
洋河股份股東大會現場:堅定長期主義,穿越行業周期 - 天天要聞

洋河股份股東大會現場:堅定長期主義,穿越行業周期

6月12日,洋河股份2024年度股東大會在酒都宿遷召開,大會審議通過了包括《2024年度董事會工作報告》《2024年度監事會工作報告》《關於公司2024年度利潤分配的議案》在內的六項議案。圍繞企業發展機遇和挑戰、外部行業趨勢和未來發展思路等資本市場關心關切的熱點問題,洋河管理層與股東代表、券商分析師、機構投資者分享交...
AI新聞日曆:2025陸家嘴論壇開幕;國內成品油調價窗口開啟;金爵獎揭曉 - 天天要聞

AI新聞日曆:2025陸家嘴論壇開幕;國內成品油調價窗口開啟;金爵獎揭曉

下周國內外有哪些大事發生?有哪些事情會關乎我們的生活?這是一篇利用AI工具(豆包)輔助生成的作品,我們希望結合編輯與AI的視角,給大家提供一份較為詳細的新聞日曆。6月16日國家統計局發佈多項報告,國民經濟運行數據出爐9:30,商品住宅銷售價格指數月度報告將率先發佈。10:00,國家統計局將先後公布國民經濟運行情況以...
幾塊錢的玻璃存10TB數據?光谷的「金融外掛」已上線 - 天天要聞

幾塊錢的玻璃存10TB數據?光谷的「金融外掛」已上線

科技創新蘊藏着巨大的價值,但只有落到產業上,科技成果才能轉化為現實生產力。當蓬勃發展的科技金融走進熱火朝天實驗室,能否助力科研團隊實現從實驗室到生產線的「關鍵一躍」呢?在武漢東湖高新區。這片被譽為中國光谷的熱土,既是科技創新的前沿陣地,更是孕育創新成果的豐饒之地。究竟是什麼讓這裡持續迸發創新活力?當...
工信部回應17家車企「60天賬期」承諾 - 天天要聞

工信部回應17家車企「60天賬期」承諾

快科技6月12日消息,日前,包括一汽、東風、廣汽、賽力斯在內的17家重點汽車企業發表聲明,承諾對供應商的支付賬期不超過60天。這一舉措旨在改善供應商的資金周轉狀況,促進產業鏈的穩定發展。