DeepSeek V4的Agent能力是開源第一——但還有一件事，悄悄變差了

2026年04月26日20:10:17 科技 6281

4月24日，deepseek v4正式開源發布。海外ai社區48小時內完成了第一輪系統性評測。

結論出來了，但出乎很多人意料。好消息是：v4-pro在智能體（agent）任務上排名所有已公開開源模型第一。壞消息是：它的幻覺率，比上一代有所上升。

這兩件事放在一起，值得認真解讀一下。

幻覺率是什麼，為什麼企業端比個人用戶更在乎

「幻覺」是ai領域的專業術語，指的是：當模型不知道答案時，它會編造一個聽起來很像真的回答，而不是說「我不知道」。注意：幻覺率94%，不是說v4有94%的回答是錯的——它的含義是，在那些它本來不確定的問題上，有94%的概率選擇給出回答而非拒絕回答。這個區別很重要。

對個人用戶來說，這有時候只是個小麻煩——你問ai一道歷史題，它編了個看似合理但其實不存在的事件，你查一下發現不對，重新問一遍就好了。

但對企業端來說，幻覺是一個合規性紅線。醫療場景：ai給患者生成的用藥建議，如果出現幻覺，可能引發醫療事故；法律場景：合同審查中ai引用了一條「並不存在」的法條，律師事務所面臨違約風險；金融場景：ai生成的財報摘要中出現了錯誤數據，投資決策失誤的責任歸屬極為複雜。這三個場景有一個共同特點：零容忍。

這就是為什麼，幻覺率是企業選ai模型的核心指標之一——有時甚至比「聰明程度」更重要。

▸ v4-pro幻覺率：94%（不確定時選擇回答而非拒絕的概率）（來源：artificial analysis評測，2026年4月）

▸ v4-flash幻覺率：96%（來源：artificial analysis評測，2026年4月）

▸ v4-pro agent評分：gdpval-aa 1554分，位列開源模型第一，超越kimi k2.6（1484）（來源：artificial analysis，2026年4月）

▸ api定價：輸入12元/百萬token，輸出24元/百萬token（來源：deepseek api文檔，2026年4月24日）

v4為什麼在agent能力提升的同時，幻覺率有所上升

▍agent任務的本質：更長的推理鏈條

傳統的「問答型」ai，一次對話通常完成一次推理。而agent任務（如：幫我查三個供應商的報價，對比優劣，起草詢價郵件）需要ai自主規劃多個步驟，每一步調用工具、處理結果、再規划下一步。推理鏈條可以延伸到十步、二十步甚至更多。鏈條越長，每一步的小誤差越有機會積累放大——類似「傳話遊戲」效應。這在一定程度上解釋了為什麼agent能力強的模型，幻覺率也更難控制。

▍deepseek的技術取捨

根據artificial analysis的評測數據，v4-pro在知識準確性（aa-omniscience）上比v3.2有所提升，得分從-21改善至-10。但同時，當模型不確定時，它選擇「大膽回答」而非「保守拒絕」——這正是幻覺率高的根本來源。這是一個明確的設計取捨：agent場景中，一個「什麼都不說」的模型會頻繁卡住工作流，而一個「大膽推進」的模型能完成更複雜的任務，但引入了更高的出錯風險。這不是v4的失誤，而是技術路線的選擇。

更強的工具，需要更謹慎的使用者。

企業端應該怎麼用v4

「agent第一+幻覺率偏高」的組合，並不意味著v4不適合企業使用，而是需要分場景部署。

▍適合大量使用的場景

①內容創作與研究輔助（文章起草、市場分析、競品調研）——幻覺的代價是可接受的，人工審閱是最後一道關；②代碼生成與調試——有工程師建議，代碼層面的幻覺可以通過測試用例快速暴露，驗證成本相對較低；③多步驟任務自動化（數據處理流程、格式轉換、批量操作）——幻覺風險可以通過結果驗證機制控制。

▍需要加強核查的場景

①法律文書生成與合同審查——幻覺引用法條是高風險行為，應作為輔助而非判斷主體；②醫療建議與臨床決策支持——監管合規要求明確，ai輸出必須經過專業人員複核；③財務數據分析與合規報告——數字錯誤在財務場景代價極高。

對於企業ai負責人來說，真正的價值判斷不是「v4幻覺率偏高，所以不能用」，而是「在哪些場景下，v4的幻覺風險是可控的，在哪些場景下需要加強審查」。

▸ v4-pro運行成本：artificial analysis全套測評耗費約1,071美元，高於v3.2的71美元（來源：artificial analysis，2026年4月）

▸ v4-pro輸出token量：190m（僅測評套件），token消耗顯著高於同級開源模型

▸ 開源狀態：v4-pro與v4-flash均已開源，支持本地私有化部署（來源：deepseek api文檔，2026年4月24日）

agent時代的幻覺問題，比過去更值得關注

過去，ai的幻覺問題主要是個人用戶的體驗問題。現在，隨著ai進入agent時代（ai自主完成多步驟工作流程），幻覺問題正在升級為更複雜的系統性挑戰。

在agent工作流中，每一步的輸出都是下一步的輸入。幻覺一旦出現，可能被後續步驟放大，而不是被隔離。這是整個ai行業正在面對的核心技術難題：如何在提升agent能力的同時，把幻覺率有效壓低。目前沒有模型同時做到了兩者的最優化。v4選擇了「agent優先」，另一些模型選擇了「幻覺率優先」，這是不同的技術路線，適配不同的使用場景。

deepseek v4更聰明了，也更敢說話了。但「敢說話」和「說對話」，從來不是同一件事。

agent能力排名開源第一，這是deepseek v4真實的技術突破。幻覺率偏高，這也是真實的技術代價。兩件事都是真的，都值得認真對待。

對普通用戶來說，v4用來寫文章、做研究、輔助編程，完全沒有問題。對企業端來說，在醫療、法律、金融這類「精確性要求極高」的場景部署之前，需要建立相應的人工核查機制。這不只是v4的局限，這是當前所有大模型都面臨的現實。

作者 | 知予

免責聲明：本文僅為信息分享與行業分析，不構成任何投資建議、投資分析意見或交易邀約。市場有風險，投資需謹慎。任何人依據本文內容作出的投資決策，風險與盈虧自行承擔，作者及發布平台不承擔任何法律責任。

信息來源

1. artificial analysis：《deepseek is back among the leading open weights models with v4 pro and v4 flash》（2026年4月）

2. deepseek api官方文檔：更新日誌（2026年4月24日）

3. bentoml blog：《the complete guide to deepseek models》（2026年4月）

4. 每日經濟新聞：《deepseek v4來了！"用國產算力跑國產模型"》（2026年4月25日）