4月24日,deepseek v4正式開源發佈。海外ai社區48小時內完成了第一輪系統性評測。
結論出來了,但出乎很多人意料。好消息是:v4-pro在智能體(agent)任務上排名所有已公開開源模型第一。壞消息是:它的幻覺率,比上一代有所上升。
這兩件事放在一起,值得認真解讀一下。
幻覺率是什麼,為什麼企業端比個人用戶更在乎
「幻覺」是ai領域的專業術語,指的是:當模型不知道答案時,它會編造一個聽起來很像真的回答,而不是說「我不知道」。注意:幻覺率94%,不是說v4有94%的回答是錯的——它的含義是,在那些它本來不確定的問題上,有94%的概率選擇給出回答而非拒絕回答。這個區別很重要。
對個人用戶來說,這有時候只是個小麻煩——你問ai一道歷史題,它編了個看似合理但其實不存在的事件,你查一下發現不對,重新問一遍就好了。
但對企業端來說,幻覺是一個合規性紅線。醫療場景:ai給患者生成的用藥建議,如果出現幻覺,可能引發醫療事故;法律場景:合同審查中ai引用了一條「並不存在」的法條,律師事務所面臨違約風險;金融場景:ai生成的財報摘要中出現了錯誤數據,投資決策失誤的責任歸屬極為複雜。這三個場景有一個共同特點:零容忍。
這就是為什麼,幻覺率是企業選ai模型的核心指標之一——有時甚至比「聰明程度」更重要。
▸ v4-pro幻覺率:94%(不確定時選擇回答而非拒絕的概率)(來源:artificial analysis評測,2026年4月)
▸ v4-flash幻覺率:96%(來源:artificial analysis評測,2026年4月)
▸ v4-pro agent評分:gdpval-aa 1554分,位列開源模型第一,超越kimi k2.6(1484)(來源:artificial analysis,2026年4月)
▸ api定價:輸入12元/百萬token,輸出24元/百萬token(來源:deepseek api文檔,2026年4月24日)
v4為什麼在agent能力提升的同時,幻覺率有所上升
▍agent任務的本質:更長的推理鏈條
傳統的「問答型」ai,一次對話通常完成一次推理。而agent任務(如:幫我查三個供應商的報價,對比優劣,起草詢價郵件)需要ai自主規劃多個步驟,每一步調用工具、處理結果、再規划下一步。推理鏈條可以延伸到十步、二十步甚至更多。鏈條越長,每一步的小誤差越有機會積累放大——類似「傳話遊戲」效應。這在一定程度上解釋了為什麼agent能力強的模型,幻覺率也更難控制。
▍deepseek的技術取捨
根據artificial analysis的評測數據,v4-pro在知識準確性(aa-omniscience)上比v3.2有所提升,得分從-21改善至-10。但同時,當模型不確定時,它選擇「大膽回答」而非「保守拒絕」——這正是幻覺率高的根本來源。這是一個明確的設計取捨:agent場景中,一個「什麼都不說」的模型會頻繁卡住工作流,而一個「大膽推進」的模型能完成更複雜的任務,但引入了更高的出錯風險。這不是v4的失誤,而是技術路線的選擇。
更強的工具,需要更謹慎的使用者。
企業端應該怎麼用v4
「agent第一+幻覺率偏高」的組合,並不意味着v4不適合企業使用,而是需要分場景部署。
▍適合大量使用的場景
①內容創作與研究輔助(文章起草、市場分析、競品調研)——幻覺的代價是可接受的,人工審閱是最後一道關;②代碼生成與調試——有工程師建議,代碼層面的幻覺可以通過測試用例快速暴露,驗證成本相對較低;③多步驟任務自動化(數據處理流程、格式轉換、批量操作)——幻覺風險可以通過結果驗證機制控制。
▍需要加強核查的場景
①法律文書生成與合同審查——幻覺引用法條是高風險行為,應作為輔助而非判斷主體;②醫療建議與臨床決策支持——監管合規要求明確,ai輸出必須經過專業人員複核;③財務數據分析與合規報告——數字錯誤在財務場景代價極高。
對於企業ai負責人來說,真正的價值判斷不是「v4幻覺率偏高,所以不能用」,而是「在哪些場景下,v4的幻覺風險是可控的,在哪些場景下需要加強審查」。
▸ v4-pro運行成本:artificial analysis全套測評耗費約1,071美元,高於v3.2的71美元(來源:artificial analysis,2026年4月)
▸ v4-pro輸出token量:190m(僅測評套件),token消耗顯著高於同級開源模型
▸ 開源狀態:v4-pro與v4-flash均已開源,支持本地私有化部署(來源:deepseek api文檔,2026年4月24日)
agent時代的幻覺問題,比過去更值得關注
過去,ai的幻覺問題主要是個人用戶的體驗問題。現在,隨着ai進入agent時代(ai自主完成多步驟工作流程),幻覺問題正在升級為更複雜的系統性挑戰。
在agent工作流中,每一步的輸出都是下一步的輸入。幻覺一旦出現,可能被後續步驟放大,而不是被隔離。這是整個ai行業正在面對的核心技術難題:如何在提升agent能力的同時,把幻覺率有效壓低。目前沒有模型同時做到了兩者的最優化。v4選擇了「agent優先」,另一些模型選擇了「幻覺率優先」,這是不同的技術路線,適配不同的使用場景。
deepseek v4更聰明了,也更敢說話了。但「敢說話」和「說對話」,從來不是同一件事。
agent能力排名開源第一,這是deepseek v4真實的技術突破。幻覺率偏高,這也是真實的技術代價。兩件事都是真的,都值得認真對待。
對普通用戶來說,v4用來寫文章、做研究、輔助編程,完全沒有問題。對企業端來說,在醫療、法律、金融這類「精確性要求極高」的場景部署之前,需要建立相應的人工核查機制。這不只是v4的局限,這是當前所有大模型都面臨的現實。
作 者 | 知予
免責聲明:本文僅為信息分享與行業分析,不構成任何投資建議、投資分析意見或交易邀約。市場有風險,投資需謹慎。任何人依據本文內容作出的投資決策,風險與盈虧自行承擔,作者及發佈平台不承擔任何法律責任。
信息來源
1. artificial analysis:《deepseek is back among the leading open weights models with v4 pro and v4 flash》(2026年4月)
2. deepseek api官方文檔:更新日誌(2026年4月24日)
3. bentoml blog:《the complete guide to deepseek models》(2026年4月)
4. 每日經濟新聞:《deepseek v4來了!"用國產算力跑國產模型"》(2026年4月25日)