DeepSeek V4的Agent能力是開源第一——但還有一件事,悄悄變差了

2026年04月26日20:10:17 科技 6281

DeepSeek V4的Agent能力是開源第一——但還有一件事,悄悄變差了 - 天天要聞

4月24日,deepseek v4正式開源發布。海外ai社區48小時內完成了第一輪系統性評測。

結論出來了,但出乎很多人意料。好消息是:v4-pro在智能體(agent)任務上排名所有已公開開源模型第一。壞消息是:它的幻覺率,比上一代有所上升。

這兩件事放在一起,值得認真解讀一下。

幻覺率是什麼,為什麼企業端比個人用戶更在乎

「幻覺」是ai領域的專業術語,指的是:當模型不知道答案時,它會編造一個聽起來很像真的回答,而不是說「我不知道」。注意:幻覺率94%,不是說v4有94%的回答是錯的——它的含義是,在那些它本來不確定的問題上,有94%的概率選擇給出回答而非拒絕回答。這個區別很重要。

對個人用戶來說,這有時候只是個小麻煩——你問ai一道歷史題,它編了個看似合理但其實不存在的事件,你查一下發現不對,重新問一遍就好了。

但對企業端來說,幻覺是一個合規性紅線。醫療場景:ai給患者生成的用藥建議,如果出現幻覺,可能引發醫療事故;法律場景:合同審查中ai引用了一條「並不存在」的法條,律師事務所面臨違約風險;金融場景:ai生成的財報摘要中出現了錯誤數據,投資決策失誤的責任歸屬極為複雜。這三個場景有一個共同特點:零容忍。

這就是為什麼,幻覺率是企業選ai模型的核心指標之一——有時甚至比「聰明程度」更重要。

▸ v4-pro幻覺率:94%(不確定時選擇回答而非拒絕的概率)(來源:artificial analysis評測,2026年4月)

▸ v4-flash幻覺率:96%(來源:artificial analysis評測,2026年4月)

▸ v4-pro agent評分:gdpval-aa 1554分,位列開源模型第一,超越kimi k2.6(1484)(來源:artificial analysis,2026年4月)

api定價:輸入12元/百萬token,輸出24元/百萬token(來源:deepseek api文檔,2026年4月24日)

v4為什麼在agent能力提升的同時,幻覺率有所上升

agent任務的本質:更長的推理鏈條

傳統的「問答型」ai,一次對話通常完成一次推理。而agent任務(如:幫我查三個供應商的報價,對比優劣,起草詢價郵件)需要ai自主規劃多個步驟,每一步調用工具、處理結果、再規划下一步。推理鏈條可以延伸到十步、二十步甚至更多。鏈條越長,每一步的小誤差越有機會積累放大——類似「傳話遊戲」效應。這在一定程度上解釋了為什麼agent能力強的模型,幻覺率也更難控制。

▍deepseek的技術取捨

根據artificial analysis的評測數據,v4-pro在知識準確性(aa-omniscience)上比v3.2有所提升,得分從-21改善至-10。但同時,當模型不確定時,它選擇「大膽回答」而非「保守拒絕」——這正是幻覺率高的根本來源。這是一個明確的設計取捨:agent場景中,一個「什麼都不說」的模型會頻繁卡住工作流,而一個「大膽推進」的模型能完成更複雜的任務,但引入了更高的出錯風險。這不是v4的失誤,而是技術路線的選擇。

更強的工具,需要更謹慎的使用者。

企業端應該怎麼用v4

「agent第一+幻覺率偏高」的組合,並不意味著v4不適合企業使用,而是需要分場景部署。

▍適合大量使用的場景

①內容創作與研究輔助(文章起草、市場分析、競品調研)——幻覺的代價是可接受的,人工審閱是最後一道關;②代碼生成與調試——有工程師建議,代碼層面的幻覺可以通過測試用例快速暴露,驗證成本相對較低;③多步驟任務自動化(數據處理流程、格式轉換、批量操作)——幻覺風險可以通過結果驗證機制控制。

▍需要加強核查的場景

①法律文書生成與合同審查——幻覺引用法條是高風險行為,應作為輔助而非判斷主體;②醫療建議與臨床決策支持——監管合規要求明確,ai輸出必須經過專業人員複核;③財務數據分析與合規報告——數字錯誤在財務場景代價極高。

對於企業ai負責人來說,真正的價值判斷不是「v4幻覺率偏高,所以不能用」,而是「在哪些場景下,v4的幻覺風險是可控的,在哪些場景下需要加強審查」。

▸ v4-pro運行成本:artificial analysis全套測評耗費約1,071美元,高於v3.2的71美元(來源:artificial analysis,2026年4月)

▸ v4-pro輸出token量:190m(僅測評套件),token消耗顯著高於同級開源模型

▸ 開源狀態:v4-pro與v4-flash均已開源,支持本地私有化部署(來源:deepseek api文檔,2026年4月24日)

agent時代的幻覺問題,比過去更值得關注

過去,ai的幻覺問題主要是個人用戶的體驗問題。現在,隨著ai進入agent時代(ai自主完成多步驟工作流程),幻覺問題正在升級為更複雜的系統性挑戰。

在agent工作流中,每一步的輸出都是下一步的輸入。幻覺一旦出現,可能被後續步驟放大,而不是被隔離。這是整個ai行業正在面對的核心技術難題:如何在提升agent能力的同時,把幻覺率有效壓低。目前沒有模型同時做到了兩者的最優化。v4選擇了「agent優先」,另一些模型選擇了「幻覺率優先」,這是不同的技術路線,適配不同的使用場景。

deepseek v4更聰明了,也更敢說話了。但「敢說話」和「說對話」,從來不是同一件事。

agent能力排名開源第一,這是deepseek v4真實的技術突破。幻覺率偏高,這也是真實的技術代價。兩件事都是真的,都值得認真對待。

對普通用戶來說,v4用來寫文章、做研究、輔助編程,完全沒有問題。對企業端來說,在醫療、法律、金融這類「精確性要求極高」的場景部署之前,需要建立相應的人工核查機制。這不只是v4的局限,這是當前所有大模型都面臨的現實。

作 者 | 知予 

免責聲明:本文僅為信息分享與行業分析,不構成任何投資建議、投資分析意見或交易邀約。市場有風險,投資需謹慎。任何人依據本文內容作出的投資決策,風險與盈虧自行承擔,作者及發布平台不承擔任何法律責任。

信息來源

1. artificial analysis:《deepseek is back among the leading open weights models with v4 pro and v4 flash》(2026年4月)

2. deepseek api官方文檔:更新日誌(2026年4月24日)

3. bentoml blog:《the complete guide to deepseek models》(2026年4月)

4. 每日經濟新聞:《deepseek v4來了!"用國產算力跑國產模型"》(2026年4月25日)

科技分類資訊推薦

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV,第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊,以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級,兼顧商務體面與家庭舒適,為西北高端用戶帶來一站式全能出行解決方案。
採購禁入!科華數據材料造假被拒門外 - 天天要聞

採購禁入!科華數據材料造假被拒門外

本報(chinatimes.net.cn)記者胡雅文 北京報道這家趕上AI算力風口的公司,因投標材料造假,被相關採購方列入禁入名單兩年,其此前提出的複議申請也被正式駁回。相關採購平台近日發布公告,明確駁回科華數據股份有限公司(下稱「科華數據」,002335.SZ)此前提交的複議申請。早在一年前,科華數據已被認定在「信息通信樞紐...
快評樂道L80:15萬元級買大五座,這波值得沖? - 天天要聞

快評樂道L80:15萬元級買大五座,這波值得沖?

日前,樂道L80正式發布並開啟預售,其整車購買預售價為24.58萬元起,租電購買預售價則低至15.98萬元起。面對大型SUV市場「細分再細分」之競爭趨勢,這款樂道年度重磅新車都有哪些優勢?又能否成為「大五座SUV革新之作」?下面,圈哥就帶大家全方位感受。
成都直擊凱威德:純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德:純電全尺寸SUV的張揚與大氣

4月22日,凱迪拉克以奧斯卡級盛典規格,將上海保利大劇院點亮為璀璨舞台,在品牌代言人倪妮與全場嘉賓的共同見證下,凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置,官方售價區間為46.88萬-50.88萬元。