GPT-5.5實測：更聰明，也更愛「說謊」

分類：星座

瀏覽數：2737

2026-04-25

（本文作者為 aix財經，鈦媒體經授權發布）

文 | aix財經（aixcaijing）作者| 王璐，編輯| 魏佳

4月23日，openai發布新一代旗艦模型gpt-5.5，並在其官網寫道，是其迄今為止最智能、最直觀易用的模型，也是在計算機上完成工作的新方式的下一步。

這一發布迅速引發行業關注，不僅因為它號稱在智能體任務上實現突破，更因其在多項基準測試中展現出的「統治力」。根據第三方評測機構artificial analysis公布的綜合智能指數榜單，openai憑藉gpt-5.5系列在前六名中獨佔四席，該機構認為，「gpt-5.5讓openai重回ai領域的第一位，打破了與anthropic和谷歌的三方平局。」

但與高性能一同被曝光的，還有高幻覺率。在artificial analysis的私有基準測試aa-omniscience中，gpt-5.5的幻覺率高達86%，遠高於claude opus 4.7的36%。

這意味著，當這個目前「最聰明」的ai大腦面對不確定或未知的問題時，選擇「坦言不知」的概率極低，反而更傾向於「自信地虛構」一個答案。而這種高幻覺率一旦放在需要高可靠性的工作場景中，很可能導致分析偏差、決策失誤甚至財務損失。

最強的ai也是最危險的「說謊者」？面對高幻覺率，gpt-5.5究竟能否在實際應用中可靠地完成複雜的知識任務？為了回答這些關鍵問題，我們對gpt-5.5進行了實測，從處理家庭賬本到編寫實時對戰遊戲，測試其應對長上下文、複雜邏輯的知識工作與編程實戰能力。

此次測試不僅關乎一個模型的性能，更關乎ai技術進入深水區後，我們如何在擁抱其強大能力的同時，應對其潛在風險。

01. 知識能力：它真的像職場人一樣會幹活

根據官方發布的基準測試結果，gpt-5.5在幾乎所有核心指標上都超越了前代gpt-5.4，在知識工作領域表現尤為突出。

在一項覆蓋44個職業的gdpval測試中，gpt-5.5取得了84.9%的得分，不僅超過了83.0%的真實職場人員水平，也高於claude opus 4.7的80.3%和gemini 3.1 pro的67.3%。該測試模擬了金融分析師、市場經理、軟體工程師等多種白領職業的日常工作，要求模型完成信息整合、分析推理、決策建議與報告生成等綜合性任務。

此外，gpt-5.5在其他多個實用場景的測試中也表現不錯。在模擬複雜客服對話的測試中，無需特別指導就能達到98.0%的準確率；在讓ai像真人一樣操作電腦完成任務的測試中，得分78.7%；在需要結合圖像、文字理解並調用工具解決問題的測試中，分別拿到83.2%和75.3%的分數。這些成績說明，gpt-5.5正在逐步打通「看、說、做」等一系列能力。

openai還用內部的實際案例證明了它的生產力價值。其財務團隊用它審核了24771份k-1稅表、總計71637頁文件，並稱這套流程比上一年提前了兩周完成。這說明gpt-5.5是能夠直接融入工作流程、切實提升效率的生產力工具。

這些能力在真實生活中用起來怎麼樣？我們設計了一個貼近家庭的測試來驗證。

我們給gpt-5.5多條格式凌亂的單月開支數據，讓其扮演家庭數據分析師，完成整理數據、計算總支出、分析各支付方式佔比、分類統計開銷等任務，並最終生成一份給家人看的建議報告。

這個測試場景設計得雖然簡單，卻很能看出ai是否真的「好用」。因為家庭記賬是很多人的日常，但記錄常常是隨手寫、格式亂，「亂七八糟」的記賬數據要求ai不能只會處理整齊的表格，還得能「看懂」手寫式的記錄、理解每筆錢是什麼意思，並把相似項目歸到一起。

而算總賬、分析錢花在哪兒、給出節省建議，其實對應著一套完整的思考過程，gpt-5.5需要先把信息理清楚，再從裡面看出門道、提出可行的辦法，最終讓它「寫報告」，則是要求它會用人能聽懂、能接受的方式來彙報工作。

測試結果顯示，它準確合併了「外賣-午餐」和「外賣-晚餐」，而且主動提示「支付寶自動扣」應統一計入「支付寶」統計，展現出了理解混亂賬目和用戶真實意圖的能力。

gpt-5.5自主梳理表格並給出分析

在分析中，它通過計算佔比，指出「網購」（衣物、書籍）類目支出較高，且多為非急需品，因此建議為這類消費設置預算，給出的建議具體可行。最後生成的報告也充滿人情味，那句「稍微管住網購的小衝動，咱們家的開支就能更輕鬆一些」，符合「給家人看」的溝通要求，語氣親切，建議接地氣。

這個簡單的測試，相當於在生活場景中還原了上述gdpval測試所考察的核心能力，目前的結果也說明它的專業能力能用到實際生活中。

02. 編程能力：從初級到複雜，它沒添亂

除了在日常知識任務中表現可靠，在編程這類對精準性要求更高的「硬功夫」上，gpt-5.5同樣展現了不錯的進步。

在一項考驗「智能體」的基準測試（terminal-bench 2.0）中，它拿到了82.7%的高分。這個測試模擬了在命令行里執行一連串複雜操作，就像讓ai自己完成一個多步驟的運維任務。它的成績不僅比自家上一代（gpt-5.4的75.1%）高，也明顯超過了競爭對手claude opus 4.7（69.4%）。這說明它在需要記住步驟、自己調試、堅持完成長時間任務時，表現更好。

其次，在處理超長內容方面也有進步。在一項針對50萬到100萬字元超長文本的檢索測試中，它的得分達到74.0%，是上一代（36.6%）的兩倍還多。這意味著讓它分析一本厚書、瀏覽龐大的代碼倉庫時，它更不容易「看漏」或「記混」，找信息更准、思路也更連貫。

而且多項測試結果顯示，在執行相同的編程任務時，gpt-5.5消耗的token數量顯著少於gpt-5.4。就連代碼編輯器cursor的聯合創始人michael truell也評價說，它比上一代更聰明、更有韌性，調用工具更可靠，面對複雜長期任務時能堅持更久。

簡單來說，在編程這類複雜操作場景下，上述數據說明，gpt-5.5不僅更強，而且更穩、更省資源，適合處理那些步驟多、耗時長的實際開發任務。

為了驗證它真實的編程能力，我們用一個具體的開發任務進行了測試，從零開始構建並逐步升級一款連連看遊戲，並硬性規定其必須使用給到的12種不同的emoji表情。

首先，我們讓gpt-5.5生成一個完整可運行的連連看遊戲。

這需要它理解開發者的文字需求、設計界面、管理遊戲狀態，並自主實現核心的路徑搜索演算法。結果它在幾分鐘之內便順利完成了。

gpt-5.5生成的連連看小遊戲

接著，我們提高難度，要求它在遊戲中加入一個「重繪」道具。

這個道具的功能是：玩家使用時，能消耗「連擊」能量，把棋盤上與最後一次消除相同類型的圖標全部隨機刷新一次。

要實現這一點，gpt-5.5必須做兩件事，一是修改遊戲背後的數據規則來支持這個新功能；二是確保刷新後的棋盤布局仍然是「有解」的，不會讓玩家卡關。最終，gpt-5.5成功寫好了這部分代碼。

之後，我們繼續讓其為遊戲加入完整的用戶系統，包括登錄、積分記錄和排行榜展示。

這一步主要考驗的是，gpt-5.5能否將新功能平滑地接入現有框架，同時保持遊戲原有的核心玩法和邏輯不被破壞。

它再一次順利完成了任務，並且在代碼迭代過程中表現得相當克制，沒有進行過度重構，也沒有引入不必要的變化。

gpt-5.5執行對遊戲細節的調整指令

最後，我們將難度推至更高階的實時對戰模式，讓兩名玩家能在不同瀏覽器中實時競爭消除。

這其中涉及棋盤狀態同步、操作衝突裁決和網路延遲處理等一系列典型的多人在線難題。面對這樣一個集成度高、實時性強的複雜挑戰，gpt-5.5依然做到了準確交付。

這個從簡到繁的測試表明，gpt-5.5在真實編程任務中，既能處理複雜邏輯與架構設計，也能精準響應開發者需求，且不隨意重構或引入其他代碼，甚至當我們要求回退到上一版本時，它也能穩定恢復到之前的狀態。

03. 高幻覺率：能用，但不敢放手

儘管在實測中表現驚艷，但結合公開數據來看，gpt-5.5依然沒有超過市場太大預期，而且存在不可忽視的風險。

來看一組對比數據。

在artificial analysis的私有基準測試aa-omniscience中，gpt-5.5的幻覺率高達86%，而claude opus 4.7僅為36%。這意味著在該測試所設定的、專門探測模型知識邊界的場景下，當gpt-5.5面對不確定的答案時，其「坦言不知」的概率遠低於對手，更傾向於生成一個可能錯誤的回答。

需要注意的是，這86%並不意味著模型在大多數日常問答中都會產生幻覺，而是其在觸及知識盲區時的特定行為傾向。一位從業者解釋，這可能是因為gpt-5.5的事實知識覆蓋面更強，但不確定性也更偏激進，對於不確定的問題會猜答案。但在將其用於需要高可靠性的任務時，這一指標仍需引起高度警惕。

當gpt-5.5被部署到「自主工作」場景中時，這種高幻覺傾向可能會引發風險。

比如在數據分析與報告生成任務中，它可能自信地引用不存在的數據、編造統計趨勢，或基於錯誤事實提出決策建議，導致用戶做出偏離實際的商業判斷。而在編程與調試環節，它提供的代碼方案也許看起來合理，卻可能無法運行，甚至暗藏安全漏洞，大幅增加後期排查與修復的成本。

而且，這類幻覺往往以高度自信、邏輯自洽的形式呈現。對於缺乏相關專業背景的用戶而言，這種「確定性」輸出極具欺騙性，需要提高警惕。

除了技術層面的隱憂，openai此次的商業策略也顯露出明確的意圖：先用生態鎖定用戶，再用漲價收割市場。

一方面，gpt-5.5首發時並未同步開放api，僅限自家chatgpt和codex使用，初步將用戶鎖定在其應用生態內。另一方面，gpt-5.5的定價相比上一代有了明顯上漲。根據官方公布的數據，gpt-5.5每處理100萬tokens，輸入收費5美元，輸出收費30美元。而上一代的gpt-5.4，輸入和輸出價格分別為2.5美元和15美元，這意味著新一代的價格直接翻了一倍。

如果與當前的主要競爭對手對比，anthropic最強的模型opus 4.7定價為每百萬tokens輸入5美元、輸出25美元。可以看出，gpt-5.5在輸入價格上與對手持平，但在輸出價格上則高出20%。

儘管openai解釋稱，token使用效率的提升可對沖價格上漲，使用戶實際成本無明顯增加，但具體性價比仍需業界進一步驗證。

對於這一模型，資深agent從業者趙江傑評價道，這次gpt-5.5的發布並未形成斷檔領先，不如對社區熱傳的「spud」模型預期的大幅提升期望那麼大，但在agentic和coding能力上仍然繼續保持頭部頂尖位置，agentic能力提升的同時也在推動基模廠商提升模型迭代效率，openai的下一代突破模型（gpt-6）很可能也在路上了。

總之，對普通用戶而言，gpt-5.5或許值得嘗鮮，但不應視其為絕對可靠的工具，對企業用戶來說，在將其接入核心工作流前，則必須慎重，一旦出現那86%的「自信錯誤」，該由誰來兜底？

更多精彩內容，關注鈦媒體微信號（id：taimeiti），或者下載鈦媒體app

星座分類資訊推薦