DeepSeek V4的Agent能力是开源第一——但还有一件事,悄悄变差了

2026年04月26日20:10:17 科技 6281

DeepSeek V4的Agent能力是开源第一——但还有一件事,悄悄变差了 - 天天要闻

4月24日,deepseek v4正式开源发布。海外ai社区48小时内完成了第一轮系统性评测。

结论出来了,但出乎很多人意料。好消息是:v4-pro在智能体(agent)任务上排名所有已公开开源模型第一。坏消息是:它的幻觉率,比上一代有所上升。

这两件事放在一起,值得认真解读一下。

幻觉率是什么,为什么企业端比个人用户更在乎

“幻觉”是ai领域的专业术语,指的是:当模型不知道答案时,它会编造一个听起来很像真的回答,而不是说“我不知道”。注意:幻觉率94%,不是说v4有94%的回答是错的——它的含义是,在那些它本来不确定的问题上,有94%的概率选择给出回答而非拒绝回答。这个区别很重要。

对个人用户来说,这有时候只是个小麻烦——你问ai一道历史题,它编了个看似合理但其实不存在的事件,你查一下发现不对,重新问一遍就好了。

但对企业端来说,幻觉是一个合规性红线。医疗场景:ai给患者生成的用药建议,如果出现幻觉,可能引发医疗事故;法律场景:合同审查中ai引用了一条“并不存在”的法条,律师事务所面临违约风险;金融场景:ai生成的财报摘要中出现了错误数据,投资决策失误的责任归属极为复杂。这三个场景有一个共同特点:零容忍。

这就是为什么,幻觉率是企业选ai模型的核心指标之一——有时甚至比“聪明程度”更重要。

▸ v4-pro幻觉率:94%(不确定时选择回答而非拒绝的概率)(来源:artificial analysis评测,2026年4月)

▸ v4-flash幻觉率:96%(来源:artificial analysis评测,2026年4月)

▸ v4-pro agent评分:gdpval-aa 1554分,位列开源模型第一,超越kimi k2.6(1484)(来源:artificial analysis,2026年4月)

api定价:输入12元/百万token,输出24元/百万token(来源:deepseek api文档,2026年4月24日)

v4为什么在agent能力提升的同时,幻觉率有所上升

agent任务的本质:更长的推理链条

传统的“问答型”ai,一次对话通常完成一次推理。而agent任务(如:帮我查三个供应商的报价,对比优劣,起草询价邮件)需要ai自主规划多个步骤,每一步调用工具、处理结果、再规划下一步。推理链条可以延伸到十步、二十步甚至更多。链条越长,每一步的小误差越有机会积累放大——类似“传话游戏”效应。这在一定程度上解释了为什么agent能力强的模型,幻觉率也更难控制。

▍deepseek的技术取舍

根据artificial analysis的评测数据,v4-pro在知识准确性(aa-omniscience)上比v3.2有所提升,得分从-21改善至-10。但同时,当模型不确定时,它选择“大胆回答”而非“保守拒绝”——这正是幻觉率高的根本来源。这是一个明确的设计取舍:agent场景中,一个“什么都不说”的模型会频繁卡住工作流,而一个“大胆推进”的模型能完成更复杂的任务,但引入了更高的出错风险。这不是v4的失误,而是技术路线的选择。

更强的工具,需要更谨慎的使用者。

企业端应该怎么用v4

“agent第一+幻觉率偏高”的组合,并不意味着v4不适合企业使用,而是需要分场景部署。

▍适合大量使用的场景

①内容创作与研究辅助(文章起草、市场分析、竞品调研)——幻觉的代价是可接受的,人工审阅是最后一道关;②代码生成与调试——有工程师建议,代码层面的幻觉可以通过测试用例快速暴露,验证成本相对较低;③多步骤任务自动化(数据处理流程、格式转换、批量操作)——幻觉风险可以通过结果验证机制控制。

▍需要加强核查的场景

①法律文书生成与合同审查——幻觉引用法条是高风险行为,应作为辅助而非判断主体;②医疗建议与临床决策支持——监管合规要求明确,ai输出必须经过专业人员复核;③财务数据分析与合规报告——数字错误在财务场景代价极高。

对于企业ai负责人来说,真正的价值判断不是“v4幻觉率偏高,所以不能用”,而是“在哪些场景下,v4的幻觉风险是可控的,在哪些场景下需要加强审查”。

▸ v4-pro运行成本:artificial analysis全套测评耗费约1,071美元,高于v3.2的71美元(来源:artificial analysis,2026年4月)

▸ v4-pro输出token量:190m(仅测评套件),token消耗显著高于同级开源模型

▸ 开源状态:v4-pro与v4-flash均已开源,支持本地私有化部署(来源:deepseek api文档,2026年4月24日)

agent时代的幻觉问题,比过去更值得关注

过去,ai的幻觉问题主要是个人用户的体验问题。现在,随着ai进入agent时代(ai自主完成多步骤工作流程),幻觉问题正在升级为更复杂的系统性挑战。

在agent工作流中,每一步的输出都是下一步的输入。幻觉一旦出现,可能被后续步骤放大,而不是被隔离。这是整个ai行业正在面对的核心技术难题:如何在提升agent能力的同时,把幻觉率有效压低。目前没有模型同时做到了两者的最优化。v4选择了“agent优先”,另一些模型选择了“幻觉率优先”,这是不同的技术路线,适配不同的使用场景。

deepseek v4更聪明了,也更敢说话了。但“敢说话”和“说对话”,从来不是同一件事。

agent能力排名开源第一,这是deepseek v4真实的技术突破。幻觉率偏高,这也是真实的技术代价。两件事都是真的,都值得认真对待。

对普通用户来说,v4用来写文章、做研究、辅助编程,完全没有问题。对企业端来说,在医疗、法律、金融这类“精确性要求极高”的场景部署之前,需要建立相应的人工核查机制。这不只是v4的局限,这是当前所有大模型都面临的现实。

作 者 | 知予 

免责声明:本文仅为信息分享与行业分析,不构成任何投资建议、投资分析意见或交易邀约。市场有风险,投资需谨慎。任何人依据本文内容作出的投资决策,风险与盈亏自行承担,作者及发布平台不承担任何法律责任。

信息来源

1. artificial analysis:《deepseek is back among the leading open weights models with v4 pro and v4 flash》(2026年4月)

2. deepseek api官方文档:更新日志(2026年4月24日)

3. bentoml blog:《the complete guide to deepseek models》(2026年4月)

4. 每日经济新闻:《deepseek v4来了!"用国产算力跑国产模型"》(2026年4月25日)

科技分类资讯推荐

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相 - 天天要闻

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV,第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴,以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级,兼顾商务体面与家庭舒适,为西北高端用户带来一站式全能出行解决方案。
采购禁入!科华数据材料造假被拒门外 - 天天要闻

采购禁入!科华数据材料造假被拒门外

本报(chinatimes.net.cn)记者胡雅文 北京报道这家赶上AI算力风口的公司,因投标材料造假,被相关采购方列入禁入名单两年,其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告,明确驳回科华数据股份有限公司(下称“科华数据”,002335.SZ)此前提交的复议申请。早在一年前,科华数据已被认定在“信息通信枢纽...
快评乐道L80:15万元级买大五座,这波值得冲? - 天天要闻

快评乐道L80:15万元级买大五座,这波值得冲?

日前,乐道L80正式发布并开启预售,其整车购买预售价为24.58万元起,租电购买预售价则低至15.98万元起。面对大型SUV市场“细分再细分”之竞争趋势,这款乐道年度重磅新车都有哪些优势?又能否成为“大五座SUV革新之作”?下面,圈哥就带大家全方位感受。
成都直击凯威德:纯电全尺寸SUV的张扬与大气 - 天天要闻

成都直击凯威德:纯电全尺寸SUV的张扬与大气

4月22日,凯迪拉克以奥斯卡级盛典规格,将上海保利大剧院点亮为璀璨舞台,在品牌代言人倪妮与全场嘉宾的共同见证下,凯迪拉克全尺寸纯电公路旗舰——凯威德耀然上市。新车共推出长续航四驱Pro、高性能四驱Ultra两款配置,官方售价区间为46.88万-50.88万元。