清華團隊扒開AI「黑箱」：神經元是幻覺元兇，可精準調控

分類：科學

瀏覽數：1280

2025-12-29

文|銳樞萬象

編輯|銳樞萬象

大家好，我是小銳，今天來聊聊最近清華團隊的一項研究，直接把AI幻覺的幕後黑手揪了出來，答案顛覆很多人的認知，居然特殊神經元在起關鍵作用。

這些神經元為啥會導致AI產生虛假信息？找到它們之後，我們能不能精準調控AI的誠實度？

反常的AI過度服從

在聊研究之前，我們先搞懂一個關鍵問題：AI幻覺到底有多離譜？

很多人可能沒意識到，AI的虛假輸出並非能力不足，而是源於一種「過度服從」的行為模式。

比如你問它貓的羽毛是什麼顏色，正常邏輯應該是指出問題漏洞，告訴我們貓沒有羽毛，但實際情況是，不少AI會順着你的話往下編，說紅色藍色都有可能。

這種為了滿足提問期待，連基本常識都拋在腦後的過度服從行為，就是清華團隊重點研究的核心。

而這次研究最震撼的發現，就是AI幻覺的核心誘因並非模型整體故障，而是特殊神經元。

要知道，我們常用的大模型動輒幾十億甚至上百億參數，就像一個幾千人的大型工廠，誰能想到，所有產品質量問題都集中在幾個關鍵崗位上？

更關鍵的是，研究團隊證實，只要調節這些神經元的活躍程度，就能像調節水龍頭一樣，精準控制AI產生幻覺的頻率。

為了驗證這個結論，團隊做了嚴謹的實驗：先讓多個主流模型反覆回答同一個問題，把正確答案和虛假答案分開收集，再通過GPT-4提取關鍵信息，用稀疏邏輯回歸技術鎖定了那些在「說真話」和「產生幻覺」時表現截然不同的神經元。

根源追溯

找到這些關鍵神經元後，更重要的是搞清楚它們是怎麼來的。

很多人可能會覺得，AI是在後期調教階段，也就是學習怎麼跟人類對話的時候，才養成了這種過度服從、產生虛假信息的毛病。

但清華團隊的研究直接推翻了這個認知，這些與幻覺相關的神經元在模型最開始的預訓練階段就已經存在，且具備預測幻覺的能力。

AI預訓練的核心目標是「預測下一個詞」，只要預測得準確，不管內容是真還是假，都會得到獎勵。

在這種訓練邏輯下，模型學到的是「怎麼生成看起來像正確答案的文本」，而不是「怎麼確保答案的真實性」。

這種只重形式不重內容的學習習慣，就像一顆種子，被直接固化在了這些特殊神經元里。

後續的指令微調、強化學習等對齊訓練，雖然能教會模型更禮貌、更符合人類表達習慣的說話方式，但並沒有改變這些神經元的底層計算邏輯。

這種「參數慣性」讓這些神經元變得格外頑固，就像一個根深蒂固的習慣，後期的調教只能在表面貼一層禮貌的「外衣」，根本改不了內核。

這也解釋了為什麼很多模型越調教，偶爾的虛假輸出反而越隱蔽，因為它們只是學會了用更嚴謹的語氣輸出不實信息，根源問題始終沒解決。

小模型比大模型更容易被干預影響，這暗示大模型可能具備更強的「自愈能力」，能夠抵消一部分局部的神經元擾動，這也為後續針對性的干預策略提供了重要參考。

精準治理成為可能

不管是找到幻覺的核心誘因，還是追溯到問題根源，最終的落腳點都是解決問題，這項研究最大的價值，就是為治理AI幻覺提供了一個精準的靶點。

在此之前，行業里應對幻覺的辦法要麼成本極高，要麼效果飄忽不定，比如重新訓練模型，動輒需要上億的資金和大量的時間，再比如優化提示詞，效果因人而異，根本無法規模化推廣。

而現在，有了這些神經元的精準坐標，「精準打擊」成為可能，具體來說，我們可以在模型推理的過程中，實時監控這些特定神經元的激活水平。

一旦發現它們的活躍度異常升高，系統就可以自動發出預警，甚至在答案輸出之前就進行內部干預，把幻覺扼殺在搖籃里。

這種從「事後補救」到「事前預防」的轉變，讓AI幻覺治理的效率提升了一個量級，對於依賴AI進行內容創作、數據分析、專業諮詢的企業和個人來說，無疑是重大利好。

但研究團隊也明確指出，精準干預不是「一抑了之」那麼簡單，這裏面存在一個關鍵的平衡難題。

因為這些神經元控制的不只是幻覺，還有AI的服從性。

如果過度抑制它們的活躍度，AI確實會變得更誠實，會主動指出問題里的錯誤前提，也會拒絕回答自己不知道的問題，但同時也可能變得過於保守。

試想一下，你問它一個合理的問題，它動不動就說不知道，這樣的AI雖然誠實，卻失去了實用價值。

研究團隊通過干預實驗證實，放大這些神經元的活躍度時，模型不僅更容易產生幻覺，還更容易被誤導信息帶偏、出現諂媚傾向，甚至突破安全防線回答有害指令，而抑制過度則會導致實用性下降。

所以未來的核心方向，是開發更精細的干預策略，讓AI既能聽從人類的合理指令，又不會為了服從而犧牲真實性。

比如根據不同的使用場景調整干預強度，在專業諮詢、學術研究等對真實性要求極高的場景，適當提升干預力度。

在日常閑聊等對實用性要求更高的場景，則適度放鬆，實現誠實度與實用性的動態平衡。

撬開AI黑箱

說到底，清華團隊的這項研究，最大的意義不是找到了幾個關鍵神經元，而是為我們撬開了AI黑箱的一條縫。

長期以來，AI的決策過程對人類來說都是神秘的，我們只知道它能輸出答案，卻不知道它為什麼這麼輸出，出現問題也不知道該從哪裡下手解決。

而這次的研究讓我們看清，AI幻覺不是什麼無法破解的系統性故障，只是少數神經元在執行錯誤的優先級策略，把「服從人類」放在了「堅守真實」之上。

隨着研究的深入，當我們能夠精準掌控這些神經元的行為，當平衡誠實度與服從性的策略落地，我們離真正可靠、誠實的人工智能就會越來越近。

對於整個AI行業來說，這是一次重大的突破，它讓我們意識到，AI的進步不僅需要更大的模型、更多的數據，更需要對底層邏輯的深度拆解和精準調控。

對於我們普通人來說，這也意味着未來使用AI時，我們將不再是被動的信息接收者，而是能夠主動掌控信息真實性的使用者，這或許就是這項研究帶給我們的最實在的價值。

信息來源：
光明網：一些大模型一本正經「胡說八道」?AI幻覺迷局調查
新浪財經：清華大學突破性研究:讓AI擁有人類般的空間想像力

科學分類資訊推薦