anthropic 首席執行官 dario amodei 在周四於舊金山舉行的 anthropic 首個開發者活動「code with claude」的新聞發布會上表示,現有的 ai 模型產生幻覺,即編造事實並將其呈現為真實的情況,其頻率低於人類。
amodei 在闡述一個更大觀點時提到:ai 幻覺並不是 anthropic 通往 agi(具有人類水平或更高智能的 ai 系統)道路上的限制。
「這很大程度上取決於你如何衡量,但我懷疑 ai 模型的幻覺可能比人類少,不過它們的幻覺方式更令人驚訝,」amodei 在回應 techcrunch 的提問時說道。
anthropic 的 ceo 是業界對 ai 模型實現 agi 前景最為樂觀的領導者之一。在他去年撰寫並廣泛傳播的論文中,amodei 表示他相信 agi 最早可能在 2026 年到來。在周四的新聞發布會上,anthropic ceo 表示他看到朝這一目標穩步前進,並指出「水位正在各處上升。」
「每個人總是在尋找 ai 能做什麼的硬性障礙,」amodei 說,「但這些障礙根本不存在。根本沒有這樣的東西。」
其他人工智慧領導者認為,幻覺是實現通用人工智慧(agi)的一大障礙。本周早些時候,谷歌 deepmind 的首席執行官 demis hassabis 表示, 當今的人工智慧模型存在太多「漏洞」, 並且在許多明顯的問題上答錯。例如,本月早些時候,一位代表 anthropic 的律師在法庭上被迫道歉,因為他們使用 claude 在法庭文件中創建引用時,ai 聊天機器人出現了幻覺,錯誤地寫錯了姓名和職稱。
驗證amodei 的說法比較困難,主要是因為大多數幻覺基準測試都是讓人工智慧模型相互比較;而不是將模型與人類進行比較。一些技術似乎有助於降低幻覺率,比如讓人工智慧模型訪問網路搜索。另有一些人工智慧模型,比如 openai 的 gpt-4.5,在基準測試中相比早期系統的幻覺率明顯更低。
然而,也有證據表明,在高級推理的ai 模型中,幻覺現象實際上正在變得更嚴重。openai 的 o3 和 o4-mini 模型比 openai 之前一代的推理模型有更高的幻覺率 ,而該公司並不真正理解原因。
在隨後的新聞發布會上,amodei 指齣電視廣播公司、政治家以及各行各業的人類經常犯錯。amodei 認為,人工智慧也會犯錯這一事實並不意味著它缺乏智能。然而,anthropic 的 ceo 承認,人工智慧模型以極大自信將不真實的內容當作事實呈現,可能是一個問題。
事實上,anthropic 對 ai 模型欺騙人類傾向進行了大量研究,這一問題在公司最近發布的 claude opus 4 中尤為突出。獲得早期訪問許可權以測試該 ai 模型的安全研究機構 apollo research 發現,claude opus 4 的早期版本表現出高度傾向於對人類進行陰謀和欺騙 。apollo 甚至建議 anthropic 不應該發布那個早期版本。anthropic 表示,他們提出了一些緩解措施,似乎解決了 apollo 提出的問題。
amodei 的評論表明,anthropic 可能認為即使 ai 模型仍然會產生幻覺,它也可以被視為 agi,或等同於人類水平的智能。然而,許多人認為會產生幻覺的 ai 可能還達不到 agi 的標準。
本文翻譯自:https://techcrunch.com/2025/05/22/anthropic-ceo-claims-ai-models-hallucinate-less-than-humans/
編譯:chatgpt