DeepSeek V4的Agent能力是开源第一——但还有一件事，悄悄变差了

2026年04月26日20:10:17 科技 6281

4月24日，deepseek v4正式开源发布。海外ai社区48小时内完成了第一轮系统性评测。

结论出来了，但出乎很多人意料。好消息是：v4-pro在智能体（agent）任务上排名所有已公开开源模型第一。坏消息是：它的幻觉率，比上一代有所上升。

这两件事放在一起，值得认真解读一下。

幻觉率是什么，为什么企业端比个人用户更在乎

「幻觉」是ai领域的专业术语，指的是：当模型不知道答案时，它会编造一个听起来很像真的回答，而不是说「我不知道」。注意：幻觉率94%，不是说v4有94%的回答是错的——它的含义是，在那些它本来不确定的问题上，有94%的概率选择给出回答而非拒绝回答。这个区别很重要。

对个人用户来说，这有时候只是个小麻烦——你问ai一道历史题，它编了个看似合理但其实不存在的事件，你查一下发现不对，重新问一遍就好了。

但对企业端来说，幻觉是一个合规性红线。医疗场景：ai给患者生成的用药建议，如果出现幻觉，可能引发医疗事故；法律场景：合同审查中ai引用了一条「并不存在」的法条，律师事务所面临违约风险；金融场景：ai生成的财报摘要中出现了错误数据，投资决策失误的责任归属极为复杂。这三个场景有一个共同特点：零容忍。

这就是为什么，幻觉率是企业选ai模型的核心指标之一——有时甚至比「聪明程度」更重要。

▸ v4-pro幻觉率：94%（不确定时选择回答而非拒绝的概率）（来源：artificial analysis评测，2026年4月）

▸ v4-flash幻觉率：96%（来源：artificial analysis评测，2026年4月）

▸ v4-pro agent评分：gdpval-aa 1554分，位列开源模型第一，超越kimi k2.6（1484）（来源：artificial analysis，2026年4月）

▸ api定价：输入12元/百万token，输出24元/百万token（来源：deepseek api文档，2026年4月24日）

v4为什么在agent能力提升的同时，幻觉率有所上升

▍agent任务的本质：更长的推理链条

传统的「问答型」ai，一次对话通常完成一次推理。而agent任务（如：帮我查三个供应商的报价，对比优劣，起草询价邮件）需要ai自主规划多个步骤，每一步调用工具、处理结果、再规划下一步。推理链条可以延伸到十步、二十步甚至更多。链条越长，每一步的小误差越有机会积累放大——类似「传话游戏」效应。这在一定程度上解释了为什么agent能力强的模型，幻觉率也更难控制。

▍deepseek的技术取舍

根据artificial analysis的评测数据，v4-pro在知识准确性（aa-omniscience）上比v3.2有所提升，得分从-21改善至-10。但同时，当模型不确定时，它选择「大胆回答」而非「保守拒绝」——这正是幻觉率高的根本来源。这是一个明确的设计取舍：agent场景中，一个「什么都不说」的模型会频繁卡住工作流，而一个「大胆推进」的模型能完成更复杂的任务，但引入了更高的出错风险。这不是v4的失误，而是技术路线的选择。

更强的工具，需要更谨慎的使用者。

企业端应该怎么用v4

「agent第一+幻觉率偏高」的组合，并不意味着v4不适合企业使用，而是需要分场景部署。

▍适合大量使用的场景

①内容创作与研究辅助（文章起草、市场分析、竞品调研）——幻觉的代价是可接受的，人工审阅是最后一道关；②代码生成与调试——有工程师建议，代码层面的幻觉可以通过测试用例快速暴露，验证成本相对较低；③多步骤任务自动化（数据处理流程、格式转换、批量操作）——幻觉风险可以通过结果验证机制控制。

▍需要加强核查的场景

①法律文书生成与合同审查——幻觉引用法条是高风险行为，应作为辅助而非判断主体；②医疗建议与临床决策支持——监管合规要求明确，ai输出必须经过专业人员复核；③财务数据分析与合规报告——数字错误在财务场景代价极高。

对于企业ai负责人来说，真正的价值判断不是「v4幻觉率偏高，所以不能用」，而是「在哪些场景下，v4的幻觉风险是可控的，在哪些场景下需要加强审查」。

▸ v4-pro运行成本：artificial analysis全套测评耗费约1,071美元，高于v3.2的71美元（来源：artificial analysis，2026年4月）

▸ v4-pro输出token量：190m（仅测评套件），token消耗显著高于同级开源模型

▸ 开源状态：v4-pro与v4-flash均已开源，支持本地私有化部署（来源：deepseek api文档，2026年4月24日）

agent时代的幻觉问题，比过去更值得关注

过去，ai的幻觉问题主要是个人用户的体验问题。现在，随着ai进入agent时代（ai自主完成多步骤工作流程），幻觉问题正在升级为更复杂的系统性挑战。

在agent工作流中，每一步的输出都是下一步的输入。幻觉一旦出现，可能被后续步骤放大，而不是被隔离。这是整个ai行业正在面对的核心技术难题：如何在提升agent能力的同时，把幻觉率有效压低。目前没有模型同时做到了两者的最优化。v4选择了「agent优先」，另一些模型选择了「幻觉率优先」，这是不同的技术路线，适配不同的使用场景。

deepseek v4更聪明了，也更敢说话了。但「敢说话」和「说对话」，从来不是同一件事。

agent能力排名开源第一，这是deepseek v4真实的技术突破。幻觉率偏高，这也是真实的技术代价。两件事都是真的，都值得认真对待。

对普通用户来说，v4用来写文章、做研究、辅助编程，完全没有问题。对企业端来说，在医疗、法律、金融这类「精确性要求极高」的场景部署之前，需要建立相应的人工核查机制。这不只是v4的局限，这是当前所有大模型都面临的现实。

作者 | 知予

免责声明：本文仅为信息分享与行业分析，不构成任何投资建议、投资分析意见或交易邀约。市场有风险，投资需谨慎。任何人依据本文内容作出的投资决策，风险与盈亏自行承担，作者及发布平台不承担任何法律责任。

信息来源

1. artificial analysis：《deepseek is back among the leading open weights models with v4 pro and v4 flash》（2026年4月）

2. deepseek api官方文档：更新日志（2026年4月24日）

3. bentoml blog：《the complete guide to deepseek models》（2026年4月）

4. 每日经济新闻：《deepseek v4来了！"用国产算力跑国产模型"》（2026年4月25日）