
4月24日,deepseek v4正式开源发布。海外ai社区48小时内完成了第一轮系统性评测。
结论出来了,但出乎很多人意料。好消息是:v4-pro在智能体(agent)任务上排名所有已公开开源模型第一。坏消息是:它的幻觉率,比上一代有所上升。
这两件事放在一起,值得认真解读一下。
幻觉率是什么,为什么企业端比个人用户更在乎
「幻觉」是ai领域的专业术语,指的是:当模型不知道答案时,它会编造一个听起来很像真的回答,而不是说「我不知道」。注意:幻觉率94%,不是说v4有94%的回答是错的——它的含义是,在那些它本来不确定的问题上,有94%的概率选择给出回答而非拒绝回答。这个区别很重要。
对个人用户来说,这有时候只是个小麻烦——你问ai一道历史题,它编了个看似合理但其实不存在的事件,你查一下发现不对,重新问一遍就好了。
但对企业端来说,幻觉是一个合规性红线。医疗场景:ai给患者生成的用药建议,如果出现幻觉,可能引发医疗事故;法律场景:合同审查中ai引用了一条「并不存在」的法条,律师事务所面临违约风险;金融场景:ai生成的财报摘要中出现了错误数据,投资决策失误的责任归属极为复杂。这三个场景有一个共同特点:零容忍。
这就是为什么,幻觉率是企业选ai模型的核心指标之一——有时甚至比「聪明程度」更重要。
▸ v4-pro幻觉率:94%(不确定时选择回答而非拒绝的概率)(来源:artificial analysis评测,2026年4月)
▸ v4-flash幻觉率:96%(来源:artificial analysis评测,2026年4月)
▸ v4-pro agent评分:gdpval-aa 1554分,位列开源模型第一,超越kimi k2.6(1484)(来源:artificial analysis,2026年4月)
▸ api定价:输入12元/百万token,输出24元/百万token(来源:deepseek api文档,2026年4月24日)
v4为什么在agent能力提升的同时,幻觉率有所上升
▍agent任务的本质:更长的推理链条
传统的「问答型」ai,一次对话通常完成一次推理。而agent任务(如:帮我查三个供应商的报价,对比优劣,起草询价邮件)需要ai自主规划多个步骤,每一步调用工具、处理结果、再规划下一步。推理链条可以延伸到十步、二十步甚至更多。链条越长,每一步的小误差越有机会积累放大——类似「传话游戏」效应。这在一定程度上解释了为什么agent能力强的模型,幻觉率也更难控制。
▍deepseek的技术取舍
根据artificial analysis的评测数据,v4-pro在知识准确性(aa-omniscience)上比v3.2有所提升,得分从-21改善至-10。但同时,当模型不确定时,它选择「大胆回答」而非「保守拒绝」——这正是幻觉率高的根本来源。这是一个明确的设计取舍:agent场景中,一个「什么都不说」的模型会频繁卡住工作流,而一个「大胆推进」的模型能完成更复杂的任务,但引入了更高的出错风险。这不是v4的失误,而是技术路线的选择。
更强的工具,需要更谨慎的使用者。
企业端应该怎么用v4
「agent第一+幻觉率偏高」的组合,并不意味着v4不适合企业使用,而是需要分场景部署。
▍适合大量使用的场景
①内容创作与研究辅助(文章起草、市场分析、竞品调研)——幻觉的代价是可接受的,人工审阅是最后一道关;②代码生成与调试——有工程师建议,代码层面的幻觉可以通过测试用例快速暴露,验证成本相对较低;③多步骤任务自动化(数据处理流程、格式转换、批量操作)——幻觉风险可以通过结果验证机制控制。
▍需要加强核查的场景
①法律文书生成与合同审查——幻觉引用法条是高风险行为,应作为辅助而非判断主体;②医疗建议与临床决策支持——监管合规要求明确,ai输出必须经过专业人员复核;③财务数据分析与合规报告——数字错误在财务场景代价极高。
对于企业ai负责人来说,真正的价值判断不是「v4幻觉率偏高,所以不能用」,而是「在哪些场景下,v4的幻觉风险是可控的,在哪些场景下需要加强审查」。
▸ v4-pro运行成本:artificial analysis全套测评耗费约1,071美元,高于v3.2的71美元(来源:artificial analysis,2026年4月)
▸ v4-pro输出token量:190m(仅测评套件),token消耗显著高于同级开源模型
▸ 开源状态:v4-pro与v4-flash均已开源,支持本地私有化部署(来源:deepseek api文档,2026年4月24日)
agent时代的幻觉问题,比过去更值得关注
过去,ai的幻觉问题主要是个人用户的体验问题。现在,随着ai进入agent时代(ai自主完成多步骤工作流程),幻觉问题正在升级为更复杂的系统性挑战。
在agent工作流中,每一步的输出都是下一步的输入。幻觉一旦出现,可能被后续步骤放大,而不是被隔离。这是整个ai行业正在面对的核心技术难题:如何在提升agent能力的同时,把幻觉率有效压低。目前没有模型同时做到了两者的最优化。v4选择了「agent优先」,另一些模型选择了「幻觉率优先」,这是不同的技术路线,适配不同的使用场景。
deepseek v4更聪明了,也更敢说话了。但「敢说话」和「说对话」,从来不是同一件事。
agent能力排名开源第一,这是deepseek v4真实的技术突破。幻觉率偏高,这也是真实的技术代价。两件事都是真的,都值得认真对待。
对普通用户来说,v4用来写文章、做研究、辅助编程,完全没有问题。对企业端来说,在医疗、法律、金融这类「精确性要求极高」的场景部署之前,需要建立相应的人工核查机制。这不只是v4的局限,这是当前所有大模型都面临的现实。
作 者 | 知予
免责声明:本文仅为信息分享与行业分析,不构成任何投资建议、投资分析意见或交易邀约。市场有风险,投资需谨慎。任何人依据本文内容作出的投资决策,风险与盈亏自行承担,作者及发布平台不承担任何法律责任。
信息来源
1. artificial analysis:《deepseek is back among the leading open weights models with v4 pro and v4 flash》(2026年4月)
2. deepseek api官方文档:更新日志(2026年4月24日)
3. bentoml blog:《the complete guide to deepseek models》(2026年4月)
4. 每日经济新闻:《deepseek v4来了!"用国产算力跑国产模型"》(2026年4月25日)