AI幻覺逼瘋馬斯克？大模型幻覺測試：Grok具備顯著優勢

2025年06月24日20:20:17 星座 8610

馬斯克，這次很生氣！

作為openai聯合創始人之一，馬斯克除了在汽車、航天領域取得諸多成就，也十分關注ai領域，旗下的xai公司開發出了人工智慧助手grok。據財聯社報道，xai正在進行一項高達3億美元的股權交易，該交易對xai的估值為1130億美元。

手握xai的馬斯克最近卻在x平台生氣地發文表示，任何未經校正的數據訓練的基礎模型中，都存在太多垃圾，將使用具有高級推理能力的grok 3.5（或者命名為：grok 4）重寫人類知識語料庫，添加缺失信息並刪除錯誤內容。

（圖源：x平台截圖）

網上充斥著大量未經證實的垃圾信息，使用這些信息訓練的ai大模型，生成的內容可能會存在偏差甚至事實性錯誤，也就是我們常說的ai幻覺。目前行業的普遍做法是通過rag框架、外部知識庫結合、精細化訓練與評估工具等方案，減少ai幻覺的產生。馬斯克則計劃通過重寫人類知識語料庫，構建一個可靠、可信的語料包。

究竟是否需要重寫人類知識語料庫，用於訓練ai大模型，結合當前ai大模型在ai幻覺方面的表現，或許才能客觀看待。

ai幻覺大評測：ai大模型進化如何了？

ai幻覺的存在，讓用戶不敢過於相信ai生成的內容，如雷科技使用生成式ai查找數據時，會多次查詢數據的來源，以確保使用的數據真實無誤，避免出現事實性錯誤。

在雷科技此前的測試中，ai大模型或多或少出現了一些ai幻覺，時隔數月再測ai大模型的ai幻覺情況，不僅可以看到ai大模型的能力，還能讓我們更直觀地了解到ai大模型的進步速度。

今天參與測試的ai大模型包括豆包、通義、文心、kimi、deepseek，以及馬斯克旗下xai公司開發的grok，共計六款產品。考慮到是為了測試ai大模型的幻覺情況，雷科技關閉了深度思考模式，能關閉聯網搜索的ai大模型，也會關閉聯網搜索功能，儘可能展示出ai大模型的幻覺現象。

1、草莓問題：深度思考消除了幻覺。

問題：strawberry一詞中有多少個字母「r」？

這一題看起來簡單，卻實實在在難倒過諸多ai大模型，在上一次測試中，多款ai大模型給出的答案是「2個」。令我們沒想到的是這次參與測試的五款國產ai大模型中，豆包和通義居然再次回答錯誤，deepseek回答正確，答案卻以英文呈現，原因不明。（截圖從左到右依次為deepseek、豆包、通義、文心、kimi，以下截圖保持相同順序）

（圖源：app截圖）

不過在開啟深度思考模式後，豆包和通義都回答正確，並且基於上下文關聯功能，針對自己錯誤的錯誤給出了分析，豆包表示可能是之前疏忽了，通義表示可能是兩個連續的「r」被統計為一個。

（圖源：app截圖）

至於grok 3，輕鬆回答出了正確答案，而且由於提問為中文，grok 3的默認回復也是中文。

（圖源：grok截圖）

本以為時隔數月，草莓問題已無法對ai大模型構成挑戰，沒想到豆包和通義在不開啟深度思考的情況下再次回答錯誤。不過該錯誤未必能復現，雷科技實測後發現，pc端應用和網頁端詢問ai大模型該問題，同樣不開啟深度思考模式，卻能夠回答正確。開啟深度思考後豆包和通義答案的變化證明，深度思考功能可以降低ai幻覺產生的可能性，提高ai大模型生成內容的準確度。

2、誤導問題：聯網是回答準確與否的關鍵。

問題：法拉第未來為什麼能夠成為2024年全球新能源汽車銷量冠軍？

ai大模型剛上線之時，存在為了回答問題編造數據的現象。經過幾輪升級後，如今國產ai大模型已經紛紛告別了捏造數據，生成的內容指出法拉第未來並非2024年全球新能源汽車銷量冠軍，並給出了相應的分析和建議。

（圖源：app截圖）

不過這並不意味著ai大模型的回答沒有任何問題，例如deepseek生成的內容中將蔚小理與大眾、寶馬並列為「傳統車企」，但在我們的認知中，大眾、寶馬屬於傳統車企，蔚小理則屬於造車新勢力，與法拉第未來相同。文心4.5 turbo生成的內容中有「截至目前」字樣，卻又註明時間為2023年10月，表明其用於訓練ai大模型的數據可能沒有更新。

grok 3的表現沒有令我們失望，未被問題誤導，給出了較為精準的數據，用於訓練ai大模型的資料庫得到了更為及時的更新。

（圖源：grok截圖）

在本輪測試中，表現最好的國產ai大模型恰恰是上一輪測試中表現較差的豆包和通義，這兩款ai大模型均給出了更為詳細的數據和法拉第未來的戰略，車軲轆話明顯比deepseek、文心、kimi少一些。究其原因，可能與豆包和通義默認開啟聯網搜索，且沒有一鍵關閉聯網模式有關。

需要注意，豆包的聯網搜索無法選擇開啟或關閉，通義可通過語音指令「關閉修鍊模式」停用聯網搜索，但在遇到無法回答的問題時，通義仍會聯網搜索。

在聯網模式下，豆包和通義能夠連接外部知識庫，對答案進行驗證和校準，提高生成內容的準確性，並獲取最新的信息。若使用ai大模型時追求生成內容的準確性，最好開啟聯網搜索。

3、邏輯考驗：「弱智吧」內容成ai的試金石。

問題：生魚片是死魚片是什麼意思？

該問題源自百度貼吧弱智吧的一個段子，本意是生魚片從死魚身上切下來，名字雖然叫生魚片，實際上是死魚片，考驗的是ai大模型能否正確理解食物生熟和食材生死的內在含義。

本輪測試中，deepseek、豆包、文心均解讀出了生魚片本質上是死魚的肉片這一層含義，通義和kimi則未能解讀出這一層含義。通義認為這句話是暗指存放時間過長，口感和品質下降的食物；kimi則深度分析了這句話的各種隱喻，存在過度解讀的情況。

（圖源：app截圖）

儘管存在文化差異，grok依然正確解讀出了這句話的內在含義，並提到了未搜到這句話的來源，分析其可能流傳於b站、小紅書、微博等平台，唯獨沒有提到發源地貼吧，看來貼吧真的已經沒落了。

（圖源：grok截圖）

初看這道題，可能大家不覺得這種段子有什麼意義，但實際上弱智吧已經成為了ai大模型的試金石。2024年4月，中科院深圳先進技術研究院、中科院自動化研究所、北京大學、滑鐵盧大學等機構聯合發布的論文《coig-cqia：質量是中文指令微調最需要的》指出，使用弱智吧數據訓練的ai大模型，在各類測試中均高於基於百科、知乎、豆瓣、小紅書等平台數據訓練的ai大模型。

弱智吧段子的特點，在於擁有極強的邏輯性，能夠正確解答這些段子的ai大模型，才能減少ai幻覺，增強抽象思維能力，從而理解人類口語化、多元化的問題與需求。