速遞|Anthropic CEO表示AI模型的幻覺比人類少,AGI 最早可能在2026年到來

2025年05月24日11:10:18 科學 5509
速遞|Anthropic CEO表示AI模型的幻覺比人類少,AGI 最早可能在2026年到來 - 天天要聞
圖片來源:anthropic

anthropic 首席執行官 dario amodei 在周四於舊金山舉行的 anthropic 首個開發者活動「code with claude」的新聞發布會上表示,現有的 ai 模型產生幻覺,即編造事實並將其呈現為真實的情況,其頻率低於人類。

amodei 在闡述一個更大觀點時提到:ai 幻覺並不是 anthropic 通往 agi(具有人類水平或更高智能的 ai 系統)道路上的限制。

「這很大程度上取決於你如何衡量,但我懷疑 ai 模型的幻覺可能比人類少,不過它們的幻覺方式更令人驚訝,」amodei 在回應 techcrunch 的提問時說道。

anthropic 的 ceo 是業界對 ai 模型實現 agi 前景最為樂觀的領導者之一。在他去年撰寫並廣泛傳播的論文中,amodei 表示他相信 agi 最早可能在 2026 年到來。在周四的新聞發布會上,anthropic ceo 表示他看到朝這一目標穩步前進,並指出「水位正在各處上升。」

「每個人總是在尋找 ai 能做什麼的硬性障礙,」amodei 說,「但這些障礙根本不存在。根本沒有這樣的東西。」

其他人工智慧領導者認為,幻覺是實現通用人工智慧(agi)的一大障礙。本周早些時候,谷歌 deepmind 的首席執行官 demis hassabis 表示, 當今的人工智慧模型存在太多「漏洞」, 並且在許多明顯的問題上答錯。例如,本月早些時候,一位代表 anthropic 的律師在法庭上被迫道歉,因為他們使用 claude 在法庭文件中創建引用時,ai 聊天機器人出現了幻覺,錯誤地寫錯了姓名和職稱。

驗證amodei 的說法比較困難,主要是因為大多數幻覺基準測試都是讓人工智慧模型相互比較;而不是將模型與人類進行比較。一些技術似乎有助於降低幻覺率,比如讓人工智慧模型訪問網路搜索。另有一些人工智慧模型,比如 openai 的 gpt-4.5,在基準測試中相比早期系統的幻覺率明顯更低。

然而,也有證據表明,在高級推理的ai 模型中,幻覺現象實際上正在變得更嚴重。openai 的 o3 和 o4-mini 模型比 openai 之前一代的推理模型有更高的幻覺率 ,而該公司並不真正理解原因。

在隨後的新聞發布會上,amodei 指齣電視廣播公司、政治家以及各行各業的人類經常犯錯。amodei 認為,人工智慧也會犯錯這一事實並不意味著它缺乏智能。然而,anthropic 的 ceo 承認,人工智慧模型以極大自信將不真實的內容當作事實呈現,可能是一個問題。

事實上,anthropic 對 ai 模型欺騙人類傾向進行了大量研究,這一問題在公司最近發布的 claude opus 4 中尤為突出。獲得早期訪問許可權以測試該 ai 模型的安全研究機構 apollo research 發現,claude opus 4 的早期版本表現出高度傾向於對人類進行陰謀和欺騙 。apollo 甚至建議 anthropic 不應該發布那個早期版本。anthropic 表示,他們提出了一些緩解措施,似乎解決了 apollo 提出的問題。

amodei 的評論表明,anthropic 可能認為即使 ai 模型仍然會產生幻覺,它也可以被視為 agi,或等同於人類水平的智能。然而,許多人認為會產生幻覺的 ai 可能還達不到 agi 的標準。

本文翻譯自:https://techcrunch.com/2025/05/22/anthropic-ceo-claims-ai-models-hallucinate-less-than-humans/

編譯:chatgpt

科學分類資訊推薦

MIM工藝中使用氣霧化316L不鏽鋼粉末 - 天天要聞

MIM工藝中使用氣霧化316L不鏽鋼粉末

在金屬注射成型(MIM)領域,氣霧化與水霧化工藝製備的 316L 不鏽鋼粉末因製備原理差異,在粉末特性、工藝適配及終端產品性能上呈現顯著區別。結合工程實踐經驗,從材料特性到生產應用的技術優勢可系統性解析如下: 一、粉末物理特性的工程化差異
硬核!用「疼痛」敲響生命警鐘 | 全國應急科普場館巡禮 - 天天要聞

硬核!用「疼痛」敲響生命警鐘 | 全國應急科普場館巡禮

「安全規則不是寫在牆上的標語,而是用血淚換來的生存指南。」在保信安全體感實訓基地的觸電體驗區,記者手握模擬設備,一股刺痛感瞬間從指尖竄至全身——這是10毫安的安全電流,僅為日常觸電事故的百分之一,卻足以讓人終身難忘。近日,記者探訪了這座位於河北省唐山市曹妃甸新興產業園區的沉浸式安全體感實訓基地,親身體...
超3000株!雲南寧洱發現大規模珍稀植物桫欏群落 - 天天要聞

超3000株!雲南寧洱發現大規模珍稀植物桫欏群落

近日,一名科普博主在雲南省普洱市寧洱哈尼族彝族自治縣意外發現了珍稀植物桫欏群落。經當地林草部門初步調查,該桫欏群落分布面積達200餘畝,現存植株數量超過3000株。 桫欏,又稱樹蕨,是與恐....
科學家發現新矮行星 - 天天要聞

科學家發現新矮行星

#萬能生活指南#快速導讀科學家們最近發現了一顆位於太陽系邊緣的矮行星2017 OF201,其軌道獨特,繞太陽公轉約需25,000年。該發現由國際天文學聯合會的小行星中心確認,並已在預印本伺服器arXiv上發布。
企鵝糞便與雲形成的秘密 - 天天要聞

企鵝糞便與雲形成的秘密

#萬能生活指南#快速導讀科學家在南極意外發現,企鵝的糞便釋放的氨氣竟是形成獨特雲源的關鍵。這項研究顯示,企鵝糞便中的氮分解成氨氣,與海洋微生物釋放的硫氣體反應,產生氣溶膠並形成雲。
天文學家實時觀測星系點亮 - 天天要聞

天文學家實時觀測星系點亮

#我在頭條曬家鄉#快速導讀Zwicky瞬態設施通過廣角相機每晚捕捉數百張圖像,實時監測宇宙事件。2019年12月,系統發出警報,指向位於處女座的普通螺旋星系SDSS1335+0728,其核心在經歷二十年寧靜後意外亮起,可能是由於黑洞吞噬恆星
人類有兩個衰老加速期:44和60歲; 巴拿馬小島驚現跨物種的「兒童拐帶」 | 科技趣評 - 天天要聞

人類有兩個衰老加速期:44和60歲; 巴拿馬小島驚現跨物種的「兒童拐帶」 | 科技趣評

海歸學者發起的公益學術平台分享信息,整合資源交流學術,偶爾風月滄海遺珠,信手拈來 圖源:pixabay.com01人類有兩個衰老加速期:44和60歲斯坦福大學追蹤了108名志願者,他們每隔幾個月提交血液和糞便樣本以及皮膚、口腔和鼻腔拭子,持續一至近七年。研究人員評估了13.5萬種不同的分子(RNA、蛋白質和代謝物)和微生物。結...