文|銳樞萬象
編輯|銳樞萬象
大家好,我是小銳,今天來聊聊最近清華團隊的一項研究,直接把AI幻覺的幕後黑手揪了出來,答案顛覆很多人的認知,居然特殊神經元在起關鍵作用。
這些神經元為啥會導致AI產生虛假信息?找到它們之後,我們能不能精準調控AI的誠實度?
反常的AI過度服從
在聊研究之前,我們先搞懂一個關鍵問題:AI幻覺到底有多離譜?
很多人可能沒意識到,AI的虛假輸出並非能力不足,而是源於一種「過度服從」的行為模式。
比如你問它貓的羽毛是什麼顏色,正常邏輯應該是指出問題漏洞,告訴我們貓沒有羽毛,但實際情況是,不少AI會順着你的話往下編,說紅色藍色都有可能。
這種為了滿足提問期待,連基本常識都拋在腦後的過度服從行為,就是清華團隊重點研究的核心。
而這次研究最震撼的發現,就是AI幻覺的核心誘因並非模型整體故障,而是特殊神經元。
要知道,我們常用的大模型動輒幾十億甚至上百億參數,就像一個幾千人的大型工廠,誰能想到,所有產品質量問題都集中在幾個關鍵崗位上?
更關鍵的是,研究團隊證實,只要調節這些神經元的活躍程度,就能像調節水龍頭一樣,精準控制AI產生幻覺的頻率。
為了驗證這個結論,團隊做了嚴謹的實驗:先讓多個主流模型反覆回答同一個問題,把正確答案和虛假答案分開收集,再通過GPT-4提取關鍵信息,用稀疏邏輯回歸技術鎖定了那些在「說真話」和「產生幻覺」時表現截然不同的神經元。
根源追溯
找到這些關鍵神經元後,更重要的是搞清楚它們是怎麼來的。
很多人可能會覺得,AI是在後期調教階段,也就是學習怎麼跟人類對話的時候,才養成了這種過度服從、產生虛假信息的毛病。
但清華團隊的研究直接推翻了這個認知,這些與幻覺相關的神經元在模型最開始的預訓練階段就已經存在,且具備預測幻覺的能力。
AI預訓練的核心目標是「預測下一個詞」,只要預測得準確,不管內容是真還是假,都會得到獎勵。
在這種訓練邏輯下,模型學到的是「怎麼生成看起來像正確答案的文本」,而不是「怎麼確保答案的真實性」。
這種只重形式不重內容的學習習慣,就像一顆種子,被直接固化在了這些特殊神經元里。
後續的指令微調、強化學習等對齊訓練,雖然能教會模型更禮貌、更符合人類表達習慣的說話方式,但並沒有改變這些神經元的底層計算邏輯。
這種「參數慣性」讓這些神經元變得格外頑固,就像一個根深蒂固的習慣,後期的調教只能在表面貼一層禮貌的「外衣」,根本改不了內核。
這也解釋了為什麼很多模型越調教,偶爾的虛假輸出反而越隱蔽,因為它們只是學會了用更嚴謹的語氣輸出不實信息,根源問題始終沒解決。
小模型比大模型更容易被干預影響,這暗示大模型可能具備更強的「自愈能力」,能夠抵消一部分局部的神經元擾動,這也為後續針對性的干預策略提供了重要參考。
精準治理成為可能
不管是找到幻覺的核心誘因,還是追溯到問題根源,最終的落腳點都是解決問題,這項研究最大的價值,就是為治理AI幻覺提供了一個精準的靶點。
在此之前,行業里應對幻覺的辦法要麼成本極高,要麼效果飄忽不定,比如重新訓練模型,動輒需要上億的資金和大量的時間,再比如優化提示詞,效果因人而異,根本無法規模化推廣。
而現在,有了這些神經元的精準坐標,「精準打擊」成為可能,具體來說,我們可以在模型推理的過程中,實時監控這些特定神經元的激活水平。
一旦發現它們的活躍度異常升高,系統就可以自動發出預警,甚至在答案輸出之前就進行內部干預,把幻覺扼殺在搖籃里。
這種從「事後補救」到「事前預防」的轉變,讓AI幻覺治理的效率提升了一個量級,對於依賴AI進行內容創作、數據分析、專業諮詢的企業和個人來說,無疑是重大利好。
但研究團隊也明確指出,精準干預不是「一抑了之」那麼簡單,這裏面存在一個關鍵的平衡難題。
因為這些神經元控制的不只是幻覺,還有AI的服從性。
如果過度抑制它們的活躍度,AI確實會變得更誠實,會主動指出問題里的錯誤前提,也會拒絕回答自己不知道的問題,但同時也可能變得過於保守。
試想一下,你問它一個合理的問題,它動不動就說不知道,這樣的AI雖然誠實,卻失去了實用價值。
研究團隊通過干預實驗證實,放大這些神經元的活躍度時,模型不僅更容易產生幻覺,還更容易被誤導信息帶偏、出現諂媚傾向,甚至突破安全防線回答有害指令,而抑制過度則會導致實用性下降。
所以未來的核心方向,是開發更精細的干預策略,讓AI既能聽從人類的合理指令,又不會為了服從而犧牲真實性。
比如根據不同的使用場景調整干預強度,在專業諮詢、學術研究等對真實性要求極高的場景,適當提升干預力度。
在日常閑聊等對實用性要求更高的場景,則適度放鬆,實現誠實度與實用性的動態平衡。
撬開AI黑箱
說到底,清華團隊的這項研究,最大的意義不是找到了幾個關鍵神經元,而是為我們撬開了AI黑箱的一條縫。
長期以來,AI的決策過程對人類來說都是神秘的,我們只知道它能輸出答案,卻不知道它為什麼這麼輸出,出現問題也不知道該從哪裡下手解決。
而這次的研究讓我們看清,AI幻覺不是什麼無法破解的系統性故障,只是少數神經元在執行錯誤的優先級策略,把「服從人類」放在了「堅守真實」之上。
隨着研究的深入,當我們能夠精準掌控這些神經元的行為,當平衡誠實度與服從性的策略落地,我們離真正可靠、誠實的人工智能就會越來越近。
對於整個AI行業來說,這是一次重大的突破,它讓我們意識到,AI的進步不僅需要更大的模型、更多的數據,更需要對底層邏輯的深度拆解和精準調控。
對於我們普通人來說,這也意味着未來使用AI時,我們將不再是被動的信息接收者,而是能夠主動掌控信息真實性的使用者,這或許就是這項研究帶給我們的最實在的價值。
信息來源:
光明網:一些大模型一本正經「胡說八道」?AI幻覺迷局調查
新浪財經:清華大學突破性研究:讓AI擁有人類般的空間想像力