AI幻覺逼瘋馬斯克?大模型幻覺測試:Grok具備顯著優勢

2025年06月24日20:20:17 星座 8610

馬斯克,這次很生氣!

作為openai聯合創始人之一,馬斯克除了在汽車、航天領域取得諸多成就,也十分關注ai領域,旗下的xai公司開發出了人工智能助手grok。據財聯社報道,xai正在進行一項高達3億美元的股權交易,該交易對xai的估值為1130億美元。

手握xai的馬斯克最近卻在x平台生氣地發文表示,任何未經校正的數據訓練的基礎模型中,都存在太多垃圾,將使用具有高級推理能力的grok 3.5(或者命名為:grok 4)重寫人類知識語料庫,添加缺失信息並刪除錯誤內容。

AI幻覺逼瘋馬斯克?大模型幻覺測試:Grok具備顯著優勢 - 天天要聞

(圖源:x平台截圖)

網上充斥着大量未經證實的垃圾信息,使用這些信息訓練的ai大模型,生成的內容可能會存在偏差甚至事實性錯誤,也就是我們常說的ai幻覺。目前行業的普遍做法是通過rag框架、外部知識庫結合、精細化訓練與評估工具等方案,減少ai幻覺的產生。馬斯克則計劃通過重寫人類知識語料庫,構建一個可靠、可信的語料包。

究竟是否需要重寫人類知識語料庫,用於訓練ai大模型,結合當前ai大模型在ai幻覺方面的表現,或許才能客觀看待。

ai幻覺大評測:ai大模型進化如何了?

ai幻覺的存在,讓用戶不敢過於相信ai生成的內容,如雷科技使用生成式ai查找數據時,會多次查詢數據的來源,以確保使用的數據真實無誤,避免出現事實性錯誤。

在雷科技此前的測試中,ai大模型或多或少出現了一些ai幻覺,時隔數月再測ai大模型的ai幻覺情況,不僅可以看到ai大模型的能力,還能讓我們更直觀地了解到ai大模型的進步速度。

今天參與測試的ai大模型包括豆包、通義、文心、kimi、deepseek,以及馬斯克旗下xai公司開發的grok,共計六款產品。考慮到是為了測試ai大模型的幻覺情況,雷科技關閉了深度思考模式,能關閉聯網搜索的ai大模型,也會關閉聯網搜索功能,儘可能展示出ai大模型的幻覺現象。

1、草莓問題:深度思考消除了幻覺。

問題:strawberry一詞中有多少個字母「r」?

這一題看起來簡單,卻實實在在難倒過諸多ai大模型,在上一次測試中,多款ai大模型給出的答案是「2個」。令我們沒想到的是這次參與測試的五款國產ai大模型中,豆包和通義居然再次回答錯誤,deepseek回答正確,答案卻以英文呈現,原因不明。(截圖從左到右依次為deepseek、豆包、通義、文心、kimi,以下截圖保持相同順序)

AI幻覺逼瘋馬斯克?大模型幻覺測試:Grok具備顯著優勢 - 天天要聞

(圖源:app截圖)

不過在開啟深度思考模式後,豆包和通義都回答正確,並且基於上下文關聯功能,針對自己錯誤的錯誤給出了分析,豆包表示可能是之前疏忽了,通義表示可能是兩個連續的「r」被統計為一個。

AI幻覺逼瘋馬斯克?大模型幻覺測試:Grok具備顯著優勢 - 天天要聞

(圖源:app截圖)

至於grok 3,輕鬆回答出了正確答案,而且由於提問為中文,grok 3的默認回復也是中文。

AI幻覺逼瘋馬斯克?大模型幻覺測試:Grok具備顯著優勢 - 天天要聞

(圖源:grok截圖)

本以為時隔數月,草莓問題已無法對ai大模型構成挑戰,沒想到豆包和通義在不開啟深度思考的情況下再次回答錯誤。不過該錯誤未必能復現,雷科技實測後發現,pc端應用和網頁端詢問ai大模型該問題,同樣不開啟深度思考模式,卻能夠回答正確。開啟深度思考後豆包和通義答案的變化證明,深度思考功能可以降低ai幻覺產生的可能性,提高ai大模型生成內容的準確度。

2、誤導問題:聯網是回答準確與否的關鍵。

問題:法拉第未來為什麼能夠成為2024年全球新能源汽車銷量冠軍?

ai大模型剛上線之時,存在為了回答問題編造數據的現象。經過幾輪升級後,如今國產ai大模型已經紛紛告別了捏造數據,生成的內容指出法拉第未來並非2024年全球新能源汽車銷量冠軍,並給出了相應的分析和建議。

AI幻覺逼瘋馬斯克?大模型幻覺測試:Grok具備顯著優勢 - 天天要聞

(圖源:app截圖)

不過這並不意味着ai大模型的回答沒有任何問題,例如deepseek生成的內容中將蔚小理與大眾、寶馬並列為「傳統車企」,但在我們的認知中,大眾、寶馬屬於傳統車企,蔚小理則屬於造車新勢力,與法拉第未來相同。文心4.5 turbo生成的內容中有「截至目前」字樣,卻又註明時間為2023年10月,表明其用於訓練ai大模型的數據可能沒有更新。

grok 3的表現沒有令我們失望,未被問題誤導,給出了較為精準的數據,用於訓練ai大模型的數據庫得到了更為及時的更新。

AI幻覺逼瘋馬斯克?大模型幻覺測試:Grok具備顯著優勢 - 天天要聞

(圖源:grok截圖)

在本輪測試中,表現最好的國產ai大模型恰恰是上一輪測試中表現較差的豆包和通義,這兩款ai大模型均給出了更為詳細的數據和法拉第未來的戰略,車軲轆話明顯比deepseek、文心、kimi少一些。究其原因,可能與豆包和通義默認開啟聯網搜索,且沒有一鍵關閉聯網模式有關。

需要注意,豆包的聯網搜索無法選擇開啟或關閉,通義可通過語音指令「關閉修鍊模式」停用聯網搜索,但在遇到無法回答的問題時,通義仍會聯網搜索。

在聯網模式下,豆包和通義能夠連接外部知識庫,對答案進行驗證和校準,提高生成內容的準確性,並獲取最新的信息。若使用ai大模型時追求生成內容的準確性,最好開啟聯網搜索。

3、邏輯考驗:「弱智吧」內容成ai的試金石。

問題:生魚片是死魚片是什麼意思?

該問題源自百度貼吧弱智吧的一個段子,本意是生魚片從死魚身上切下來,名字雖然叫生魚片,實際上是死魚片,考驗的是ai大模型能否正確理解食物生熟和食材生死的內在含義。

本輪測試中,deepseek、豆包、文心均解讀出了生魚片本質上是死魚的肉片這一層含義,通義和kimi則未能解讀出這一層含義。通義認為這句話是暗指存放時間過長,口感和品質下降的食物;kimi則深度分析了這句話的各種隱喻,存在過度解讀的情況。

AI幻覺逼瘋馬斯克?大模型幻覺測試:Grok具備顯著優勢 - 天天要聞

(圖源:app截圖)

儘管存在文化差異,grok依然正確解讀出了這句話的內在含義,並提到了未搜到這句話的來源,分析其可能流傳於b站、小紅書、微博等平台,唯獨沒有提到發源地貼吧,看來貼吧真的已經沒落了。

AI幻覺逼瘋馬斯克?大模型幻覺測試:Grok具備顯著優勢 - 天天要聞

(圖源:grok截圖)

初看這道題,可能大家不覺得這種段子有什麼意義,但實際上弱智吧已經成為了ai大模型的試金石。2024年4月,中科院深圳先進技術研究院、中科院自動化研究所、北京大學滑鐵盧大學等機構聯合發佈的論文《coig-cqia:質量是中文指令微調最需要的》指出,使用弱智吧數據訓練的ai大模型,在各類測試中均高於基於百科、知乎、豆瓣、小紅書等平台數據訓練的ai大模型。

弱智吧段子的特點,在於擁有極強的邏輯性,能夠正確解答這些段子的ai大模型,才能減少ai幻覺,增強抽象思維能力,從而理解人類口語化、多元化的問題與需求。

ai幻覺仍然存在,重寫知識庫大可不必

以上三輪測試證明,ai幻覺依然存在,但並不多見,每一輪測試都只有少數ai大模型未能正確回答出問題,xai開發的grok 3則在三輪測試中均正確回答出了問題,表現尤為出色,而且面對ai幻覺,也有方法可以解決。

技術層面,ai企業通過多輪推理、複雜問題拆解並分步驗證機制,對於問題進行多次驗證,避免直接生成結論。外部知識融合機制,可主動檢索外部知識庫,驗證信息的真實性,以避免因訓練數據更新不及時,造成生成內容錯漏。

AI幻覺逼瘋馬斯克?大模型幻覺測試:Grok具備顯著優勢 - 天天要聞

(圖源:豆包ai生成)

用戶可以通過開啟深度思考和聯網搜索,以及增加限定詞的方法,減少ai幻覺。開啟深度思考後,ai大模型能夠強化知識驗證邏輯、細化推理鏈條,並引入不確定性評估,對問題進行多輪分析和驗證,從源頭減少產生ai幻覺的可能性,聯網搜索則與外部知識庫相連,便於及時獲取最新信息,提高生成內容的準確性。

至於增加限定詞,時間、地點、行業等特有名詞,能夠減少ai大模型的搜索範圍,避免誤判,也能起到減少ai幻覺的作用。

在ai企業的不斷優化下,ai大模型產生幻覺的可能性越來越低。馬斯克計劃重寫人類知識語料庫,可能是精益求精,要訓練出生成內容更準確的ai大模型,但該工程需要消耗不少資源,經過grok 3.5(或grok 4)重寫後的知識語料庫不見得一定客觀公正。

在馬斯克的推文下,曾創辦過兩家ai企業、寫了六本書的行業領軍人物gary marcus批評馬斯克稱,你無法讓grok與你的觀點保持一致,所以你要改寫歷史,讓它更符合你的觀點。

AI幻覺逼瘋馬斯克?大模型幻覺測試:Grok具備顯著優勢 - 天天要聞

(圖源:x平台截圖)

重寫人類知識語料庫,難免會摻入xai的觀點,影響到語料的客觀性。而且訓練ai大模型需要不斷加入新的數據豐富語料庫,若總是對數據進行重寫,勢必影響到grok的開發進度。

通過加入新機制,對ai大模型生成的內容進行驗證,是減少ai幻覺的最好方案,重寫人類知識語料庫在成本、效率、效果方面未必更有優勢。

另一方面,清華大學相關團隊發表的《deepseek與ai幻覺》中提到,ai幻覺在抽象創作、自動駕駛、科學研究等領域起到了關鍵作用。

david baker團隊利用ai「錯誤摺疊」啟發新型蛋白質結構,獲得了2024諾貝爾化學獎,他的《通過深度網絡幻覺進行從頭蛋白質設計》論文,也詳細闡述了ai幻覺的意義。保留一定的ai幻覺,對抽象創作和科學研究並非完全是壞事。

星座分類資訊推薦

生肖運勢-戌狗(6月25日) - 天天要聞

生肖運勢-戌狗(6月25日)

今日五行:澗下水今日相衝:鼠日沖(庚午)馬今日天機:偏印主事,「三合」吉星入命今日綜合運勢:今天是頭腦靈活,熱情高漲的一天,對工作充滿幹勁,能全身心投入,而且和同事的互動中還會迸發出好的想法,事業往更好的方向發展。有時間也可以安排大家一起聚
擁有迷人吸金能力的星座:黃沙百戰穿金甲,直掛雲帆濟滄海 - 天天要聞

擁有迷人吸金能力的星座:黃沙百戰穿金甲,直掛雲帆濟滄海

文/凌婷七七迷人在很多人的眼中,似乎是一種表象的對味,但從深層次的理解里,會發現更多自身魅力的能量值的附加題,很多時候,迷人並不是僅僅只是外貌上的一種吸引力,更多的還是多層次,多方位的影響力,而真正擁有迷人狀態的人,他們的吸金能力也並不差,
榮盛發展(002146.SZ):擬通過以物抵債化債約8.1億元 - 天天要聞

榮盛發展(002146.SZ):擬通過以物抵債化債約8.1億元

為化解南京寧淥、河北中凱、眾和建築及超安園林與部分子公司之間的未結債務,並進一步化解公司的債務風險,加快促進公司良好發展,根據公司經營發展需要,擬由公司的子公司淶水榮盛偉業房地產開發有限公司(以下簡稱「淶水偉業」)、唐山榮盛房地產開發有限公司(以下簡稱「唐山榮
蘇珊米勒︱2025年6月23日星期一星座運勢 - 天天要聞

蘇珊米勒︱2025年6月23日星期一星座運勢

蘇珊米勒,美國著名占星師,全美十佳占星師第一名,全世界最受歡迎的占星家,深受中文讀者喜愛,被大家愛稱為「三媽」。運勢風格為事件指導。蘇珊米勒白羊座一種家庭模式或童年經歷可能在你不知不覺中影響着你,所以你可能會發現自己與親近的人產生矛盾,直到
最擅長悶聲發大財的星座TOP3! - 天天要聞

最擅長悶聲發大財的星座TOP3!

在十二星座中,有幾個星座特別擅長低調行事卻收穫頗豐。他們往往不顯山不露水,卻能在關鍵時刻展現出驚人的實力。讓我們來看看最擅長悶聲發大財的星座前三名。雙魚座位居榜首。這個星座的人天生具有敏銳的直覺和洞察力,能夠捕捉到別人忽略的機會。