清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控

2025年12月29日19:22:03 科學 1280

文|銳樞萬象

編輯|銳樞萬象

大家好,我是小銳,今天來聊聊最近清華團隊的一項研究,直接把AI幻覺的幕後黑手揪了出來,答案顛覆很多人的認知,居然特殊神經元在起關鍵作用。

這些神經元為啥會導致AI產生虛假信息?找到它們之後,我們能不能精準調控AI的誠實度?

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

反常的AI過度服從

在聊研究之前,我們先搞懂一個關鍵問題:AI幻覺到底有多離譜?

很多人可能沒意識到,AI的虛假輸出並非能力不足,而是源於一種“過度服從”的行為模式。

比如你問它貓的羽毛是什麼顏色,正常邏輯應該是指出問題漏洞,告訴我們貓沒有羽毛,但實際情況是,不少AI會順着你的話往下編,說紅色藍色都有可能。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

這種為了滿足提問期待,連基本常識都拋在腦後的過度服從行為,就是清華團隊重點研究的核心。

而這次研究最震撼的發現,就是AI幻覺的核心誘因並非模型整體故障,而是特殊神經元。

要知道,我們常用的大模型動輒幾十億甚至上百億參數,就像一個幾千人的大型工廠,誰能想到,所有產品質量問題都集中在幾個關鍵崗位上?

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

更關鍵的是,研究團隊證實,只要調節這些神經元的活躍程度,就能像調節水龍頭一樣,精準控制AI產生幻覺的頻率。

為了驗證這個結論,團隊做了嚴謹的實驗:先讓多個主流模型反覆回答同一個問題,把正確答案和虛假答案分開收集,再通過GPT-4提取關鍵信息,用稀疏邏輯回歸技術鎖定了那些在“說真話”和“產生幻覺”時表現截然不同的神經元。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

根源追溯

找到這些關鍵神經元後,更重要的是搞清楚它們是怎麼來的。

很多人可能會覺得,AI是在後期調教階段,也就是學習怎麼跟人類對話的時候,才養成了這種過度服從、產生虛假信息的毛病。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

但清華團隊的研究直接推翻了這個認知,這些與幻覺相關的神經元在模型最開始的預訓練階段就已經存在,且具備預測幻覺的能力。

AI預訓練的核心目標是“預測下一個詞”,只要預測得準確,不管內容是真還是假,都會得到獎勵。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

在這種訓練邏輯下,模型學到的是“怎麼生成看起來像正確答案的文本”,而不是“怎麼確保答案的真實性”。

這種只重形式不重內容的學習習慣,就像一顆種子,被直接固化在了這些特殊神經元里

後續的指令微調、強化學習等對齊訓練,雖然能教會模型更禮貌、更符合人類表達習慣的說話方式,但並沒有改變這些神經元的底層計算邏輯。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

這種“參數慣性讓這些神經元變得格外頑固,就像一個根深蒂固的習慣,後期的調教只能在表面貼一層禮貌的“外衣”,根本改不了內核。

這也解釋了為什麼很多模型越調教,偶爾的虛假輸出反而越隱蔽,因為它們只是學會了用更嚴謹的語氣輸出不實信息,根源問題始終沒解決。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

小模型比大模型更容易被干預影響,這暗示大模型可能具備更強的“自愈能力”,能夠抵消一部分局部的神經元擾動,這也為後續針對性的干預策略提供了重要參考。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

精準治理成為可能

不管是找到幻覺的核心誘因,還是追溯到問題根源,最終的落腳點都是解決問題,這項研究最大的價值,就是為治理AI幻覺提供了一個精準的靶點。

在此之前,行業里應對幻覺的辦法要麼成本極高,要麼效果飄忽不定,比如重新訓練模型,動輒需要上億的資金和大量的時間,再比如優化提示詞,效果因人而異,根本無法規模化推廣。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

而現在,有了這些神經元的精準坐標,“精準打擊”成為可能,具體來說,我們可以在模型推理的過程中,實時監控這些特定神經元的激活水平。

一旦發現它們的活躍度異常升高,系統就可以自動發出預警,甚至在答案輸出之前就進行內部干預,把幻覺扼殺在搖籃里。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

這種從“事後補救”到“事前預防”的轉變,讓AI幻覺治理的效率提升了一個量級,對於依賴AI進行內容創作、數據分析、專業諮詢的企業和個人來說,無疑是重大利好。

但研究團隊也明確指出,精準干預不是“一抑了之”那麼簡單,這裡面存在一個關鍵的平衡難題。

因為這些神經元控制的不只是幻覺,還有AI的服從性

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

如果過度抑制它們的活躍度,AI確實會變得更誠實,會主動指出問題里的錯誤前提,也會拒絕回答自己不知道的問題,但同時也可能變得過於保守。

試想一下,你問它一個合理的問題,它動不動就說不知道,這樣的AI雖然誠實,卻失去了實用價值。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

研究團隊通過干預實驗證實,放大這些神經元的活躍度時,模型不僅更容易產生幻覺,還更容易被誤導信息帶偏、出現諂媚傾向,甚至突破安全防線回答有害指令,而抑制過度則會導致實用性下降。

所以未來的核心方向,是開發更精細的干預策略,讓AI既能聽從人類的合理指令,又不會為了服從而犧牲真實性。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

比如根據不同的使用場景調整干預強度,在專業諮詢、學術研究等對真實性要求極高的場景,適當提升干預力度。

在日常閑聊等對實用性要求更高的場景,則適度放鬆,實現誠實度與實用性的動態平衡。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

撬開AI黑箱

說到底,清華團隊的這項研究,最大的意義不是找到了幾個關鍵神經元,而是為我們撬開了AI黑箱的一條縫。

長期以來,AI的決策過程對人類來說都是神秘的,我們只知道它能輸出答案,卻不知道它為什麼這麼輸出,出現問題也不知道該從哪裡下手解決。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

而這次的研究讓我們看清,AI幻覺不是什麼無法破解的系統性故障,只是少數神經元在執行錯誤的優先級策略,把“服從人類”放在了“堅守真實”之上。

隨着研究的深入,當我們能夠精準掌控這些神經元的行為,當平衡誠實度與服從性的策略落地,我們離真正可靠、誠實的人工智能就會越來越近。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

對於整個AI行業來說,這是一次重大的突破,它讓我們意識到,AI的進步不僅需要更大的模型、更多的數據,更需要對底層邏輯的深度拆解和精準調控。

對於我們普通人來說,這也意味着未來使用AI時,我們將不再是被動的信息接收者,而是能夠主動掌控信息真實性的使用者,這或許就是這項研究帶給我們的最實在的價值。

清華團隊扒開AI“黑箱”:神經元是幻覺元兇,可精準調控 - 天天要聞

信息來源:

光明網:一些大模型一本正經“胡說八道”?AI幻覺迷局調查

新浪財經:清華大學突破性研究:讓AI擁有人類般的空間想象力

科學分類資訊推薦

首張嗅覺圖譜問世 或重塑嗅覺形成認知 - 天天要聞

首張嗅覺圖譜問世 或重塑嗅覺形成認知

研究人員以前所未有的細節繪製了小鼠鼻腔中的嗅覺受體分布圖譜。這一成果顛覆了人們對鼻子如何產生嗅覺的認知。△小鼠鼻腔的顯微鏡橫截面圖像,顯示了鼻腔上皮的解剖結構。圖片來源:Datta Lab4月28日發表於《細胞》的一項研究,揭示了感覺神經元上表達的約1100個嗅覺受體是如何在鼻腔內壁上皮組織中受到嚴格調控的空間位置...
心臟為什麼不會得癌症? - 天天要聞

心臟為什麼不會得癌症?

心臟為什麼不會得癌症?心肌細胞會進行有節律的搏動,並在個體出生後停止增殖,因此,心臟沒有再生能力。近日,意大利的里雅斯特大學醫學院Serena Zacchigna團隊完成的體內癌症模型和離體工程心臟組織實驗表明,心肌細胞搏動所產生的機械力負
暴雨、冰雹要來,廣東天氣明起大反轉!珠海接下來…… - 天天要聞

暴雨、冰雹要來,廣東天氣明起大反轉!珠海接下來……

【來源:珠海發布】“五一”假期前兩天, 珠海天氣晴好,大家都去哪裡玩了?不過天氣馬上要反轉再反轉了! 廣東明天好天氣要暫時“下線”,局部有大暴雨、小冰雹;珠海明天午後也將有雷雨+10級大風…… 這場雨會持續多久?假期接下來的天氣會怎樣?趕緊
河北衡水:假日邂逅飛行 低空魅力引遊人 - 天天要聞

河北衡水:假日邂逅飛行 低空魅力引遊人

5月2日,位於河北省衡水市的中國航協衡水航空飛行營地,各類飛行表演和低空飛行器展示吸引市民遊客觀賞。中國桃城第四屆“翱翔中國”全國低空無人飛行器大賽暨第二屆京津冀低空飛行器集采會於5月1日至2日在此舉行。圖為遊客近距離參觀飛行器。
可拍原子運動過程 揭秘地下30米的“國之重器” - 天天要聞

可拍原子運動過程 揭秘地下30米的“國之重器”

來源:央視新聞客戶端坐落在上海張江的硬X射線自由電子激光裝置是“十三五”國家重大科技基礎設施建設規劃優先啟動項目,也是上海(長三角)國際科技創新中心核心空間載體——張江科學城重大科技基礎設施集群的旗艦裝置,是我國實現2035年建成科技強國戰