
anthropic 首席执行官 dario amodei 在周四于旧金山举行的 anthropic 首个开发者活动“code with claude”的新闻发布会上表示,现有的 ai 模型产生幻觉,即编造事实并将其呈现为真实的情况,其频率低于人类。
amodei 在阐述一个更大观点时提到:ai 幻觉并不是 anthropic 通往 agi(具有人类水平或更高智能的 ai 系统)道路上的限制。
“这很大程度上取决于你如何衡量,但我怀疑 ai 模型的幻觉可能比人类少,不过它们的幻觉方式更令人惊讶,”amodei 在回应 techcrunch 的提问时说道。
anthropic 的 ceo 是业界对 ai 模型实现 agi 前景最为乐观的领导者之一。在他去年撰写并广泛传播的论文中,amodei 表示他相信 agi 最早可能在 2026 年到来。在周四的新闻发布会上,anthropic ceo 表示他看到朝这一目标稳步前进,并指出“水位正在各处上升。”
“每个人总是在寻找 ai 能做什么的硬性障碍,”amodei 说,“但这些障碍根本不存在。根本没有这样的东西。”
其他人工智能领导者认为,幻觉是实现通用人工智能(agi)的一大障碍。本周早些时候,谷歌 deepmind 的首席执行官 demis hassabis 表示, 当今的人工智能模型存在太多“漏洞”, 并且在许多明显的问题上答错。例如,本月早些时候,一位代表 anthropic 的律师在法庭上被迫道歉,因为他们使用 claude 在法庭文件中创建引用时,ai 聊天机器人出现了幻觉,错误地写错了姓名和职称。
验证amodei 的说法比较困难,主要是因为大多数幻觉基准测试都是让人工智能模型相互比较;而不是将模型与人类进行比较。一些技术似乎有助于降低幻觉率,比如让人工智能模型访问网络搜索。另有一些人工智能模型,比如 openai 的 gpt-4.5,在基准测试中相比早期系统的幻觉率明显更低。
然而,也有证据表明,在高级推理的ai 模型中,幻觉现象实际上正在变得更严重。openai 的 o3 和 o4-mini 模型比 openai 之前一代的推理模型有更高的幻觉率 ,而该公司并不真正理解原因。
在随后的新闻发布会上,amodei 指出电视广播公司、政治家以及各行各业的人类经常犯错。amodei 认为,人工智能也会犯错这一事实并不意味着它缺乏智能。然而,anthropic 的 ceo 承认,人工智能模型以极大自信将不真实的内容当作事实呈现,可能是一个问题。
事实上,anthropic 对 ai 模型欺骗人类倾向进行了大量研究,这一问题在公司最近发布的 claude opus 4 中尤为突出。获得早期访问权限以测试该 ai 模型的安全研究机构 apollo research 发现,claude opus 4 的早期版本表现出高度倾向于对人类进行阴谋和欺骗 。apollo 甚至建议 anthropic 不应该发布那个早期版本。anthropic 表示,他们提出了一些缓解措施,似乎解决了 apollo 提出的问题。
amodei 的评论表明,anthropic 可能认为即使 ai 模型仍然会产生幻觉,它也可以被视为 agi,或等同于人类水平的智能。然而,许多人认为会产生幻觉的 ai 可能还达不到 agi 的标准。
本文翻译自:https://techcrunch.com/2025/05/22/anthropic-ceo-claims-ai-models-hallucinate-less-than-humans/
编译:chatgpt