速遞｜Anthropic CEO表示AI模型的幻覺比人類少，AGI 最早可能在2026年到來

分類：科學

瀏覽數：5509

2025-05-24

圖片來源：anthropic

anthropic 首席執行官 dario amodei 在周四於舊金山舉行的 anthropic 首個開發者活動「code with claude」的新聞發布會上表示，現有的 ai 模型產生幻覺，即編造事實並將其呈現為真實的情況，其頻率低於人類。

amodei 在闡述一個更大觀點時提到：ai 幻覺並不是 anthropic 通往 agi（具有人類水平或更高智能的 ai 系統）道路上的限制。

「這很大程度上取決於你如何衡量，但我懷疑 ai 模型的幻覺可能比人類少，不過它們的幻覺方式更令人驚訝，」amodei 在回應 techcrunch 的提問時說道。

anthropic 的 ceo 是業界對 ai 模型實現 agi 前景最為樂觀的領導者之一。在他去年撰寫並廣泛傳播的論文中，amodei 表示他相信 agi 最早可能在 2026 年到來。在周四的新聞發布會上，anthropic ceo 表示他看到朝這一目標穩步前進，並指出「水位正在各處上升。」

「每個人總是在尋找 ai 能做什麼的硬性障礙，」amodei 說，「但這些障礙根本不存在。根本沒有這樣的東西。」

其他人工智慧領導者認為，幻覺是實現通用人工智慧（agi）的一大障礙。本周早些時候，谷歌 deepmind 的首席執行官 demis hassabis 表示，當今的人工智慧模型存在太多「漏洞」，並且在許多明顯的問題上答錯。例如，本月早些時候，一位代表 anthropic 的律師在法庭上被迫道歉，因為他們使用 claude 在法庭文件中創建引用時，ai 聊天機器人出現了幻覺，錯誤地寫錯了姓名和職稱。

驗證amodei 的說法比較困難，主要是因為大多數幻覺基準測試都是讓人工智慧模型相互比較；而不是將模型與人類進行比較。一些技術似乎有助於降低幻覺率，比如讓人工智慧模型訪問網路搜索。另有一些人工智慧模型，比如 openai 的 gpt-4.5，在基準測試中相比早期系統的幻覺率明顯更低。

然而，也有證據表明，在高級推理的ai 模型中，幻覺現象實際上正在變得更嚴重。openai 的 o3 和 o4-mini 模型比 openai 之前一代的推理模型有更高的幻覺率，而該公司並不真正理解原因。

在隨後的新聞發布會上，amodei 指齣電視廣播公司、政治家以及各行各業的人類經常犯錯。amodei 認為，人工智慧也會犯錯這一事實並不意味著它缺乏智能。然而，anthropic 的 ceo 承認，人工智慧模型以極大自信將不真實的內容當作事實呈現，可能是一個問題。

事實上，anthropic 對 ai 模型欺騙人類傾向進行了大量研究，這一問題在公司最近發布的 claude opus 4 中尤為突出。獲得早期訪問許可權以測試該 ai 模型的安全研究機構 apollo research 發現，claude opus 4 的早期版本表現出高度傾向於對人類進行陰謀和欺騙。apollo 甚至建議 anthropic 不應該發布那個早期版本。anthropic 表示，他們提出了一些緩解措施，似乎解決了 apollo 提出的問題。

amodei 的評論表明，anthropic 可能認為即使 ai 模型仍然會產生幻覺，它也可以被視為 agi，或等同於人類水平的智能。然而，許多人認為會產生幻覺的 ai 可能還達不到 agi 的標準。

本文翻譯自：https://techcrunch.com/2025/05/22/anthropic-ceo-claims-ai-models-hallucinate-less-than-humans/

編譯：chatgpt

科學分類資訊推薦