清华团队扒开AI“黑箱”：神经元是幻觉元凶，可精准调控

分类：科学

浏览数：1280

2025-12-29

文|锐枢万象

编辑|锐枢万象

大家好，我是小锐，今天来聊聊最近清华团队的一项研究，直接把AI幻觉的幕后黑手揪了出来，答案颠覆很多人的认知，居然特殊神经元在起关键作用。

这些神经元为啥会导致AI产生虚假信息？找到它们之后，我们能不能精准调控AI的诚实度？

反常的AI过度服从

在聊研究之前，我们先搞懂一个关键问题：AI幻觉到底有多离谱？

很多人可能没意识到，AI的虚假输出并非能力不足，而是源于一种“过度服从”的行为模式。

比如你问它猫的羽毛是什么颜色，正常逻辑应该是指出问题漏洞，告诉我们猫没有羽毛，但实际情况是，不少AI会顺着你的话往下编，说红色蓝色都有可能。

这种为了满足提问期待，连基本常识都抛在脑后的过度服从行为，就是清华团队重点研究的核心。

而这次研究最震撼的发现，就是AI幻觉的核心诱因并非模型整体故障，而是特殊神经元。

要知道，我们常用的大模型动辄几十亿甚至上百亿参数，就像一个几千人的大型工厂，谁能想到，所有产品质量问题都集中在几个关键岗位上？

更关键的是，研究团队证实，只要调节这些神经元的活跃程度，就能像调节水龙头一样，精准控制AI产生幻觉的频率。

为了验证这个结论，团队做了严谨的实验：先让多个主流模型反复回答同一个问题，把正确答案和虚假答案分开收集，再通过GPT-4提取关键信息，用稀疏逻辑回归技术锁定了那些在“说真话”和“产生幻觉”时表现截然不同的神经元。

根源追溯

找到这些关键神经元后，更重要的是搞清楚它们是怎么来的。

很多人可能会觉得，AI是在后期调教阶段，也就是学习怎么跟人类对话的时候，才养成了这种过度服从、产生虚假信息的毛病。

但清华团队的研究直接推翻了这个认知，这些与幻觉相关的神经元在模型最开始的预训练阶段就已经存在，且具备预测幻觉的能力。

AI预训练的核心目标是“预测下一个词”，只要预测得准确，不管内容是真还是假，都会得到奖励。

在这种训练逻辑下，模型学到的是“怎么生成看起来像正确答案的文本”，而不是“怎么确保答案的真实性”。

这种只重形式不重内容的学习习惯，就像一颗种子，被直接固化在了这些特殊神经元里。

后续的指令微调、强化学习等对齐训练，虽然能教会模型更礼貌、更符合人类表达习惯的说话方式，但并没有改变这些神经元的底层计算逻辑。

这种“参数惯性”让这些神经元变得格外顽固，就像一个根深蒂固的习惯，后期的调教只能在表面贴一层礼貌的“外衣”，根本改不了内核。

这也解释了为什么很多模型越调教，偶尔的虚假输出反而越隐蔽，因为它们只是学会了用更严谨的语气输出不实信息，根源问题始终没解决。

小模型比大模型更容易被干预影响，这暗示大模型可能具备更强的“自愈能力”，能够抵消一部分局部的神经元扰动，这也为后续针对性的干预策略提供了重要参考。

精准治理成为可能

不管是找到幻觉的核心诱因，还是追溯到问题根源，最终的落脚点都是解决问题，这项研究最大的价值，就是为治理AI幻觉提供了一个精准的靶点。

在此之前，行业里应对幻觉的办法要么成本极高，要么效果飘忽不定，比如重新训练模型，动辄需要上亿的资金和大量的时间，再比如优化提示词，效果因人而异，根本无法规模化推广。

而现在，有了这些神经元的精准坐标，“精准打击”成为可能，具体来说，我们可以在模型推理的过程中，实时监控这些特定神经元的激活水平。

一旦发现它们的活跃度异常升高，系统就可以自动发出预警，甚至在答案输出之前就进行内部干预，把幻觉扼杀在摇篮里。

这种从“事后补救”到“事前预防”的转变，让AI幻觉治理的效率提升了一个量级，对于依赖AI进行内容创作、数据分析、专业咨询的企业和个人来说，无疑是重大利好。

但研究团队也明确指出，精准干预不是“一抑了之”那么简单，这里面存在一个关键的平衡难题。

因为这些神经元控制的不只是幻觉，还有AI的服从性。

如果过度抑制它们的活跃度，AI确实会变得更诚实，会主动指出问题里的错误前提，也会拒绝回答自己不知道的问题，但同时也可能变得过于保守。

试想一下，你问它一个合理的问题，它动不动就说不知道，这样的AI虽然诚实，却失去了实用价值。

研究团队通过干预实验证实，放大这些神经元的活跃度时，模型不仅更容易产生幻觉，还更容易被误导信息带偏、出现谄媚倾向，甚至突破安全防线回答有害指令，而抑制过度则会导致实用性下降。

所以未来的核心方向，是开发更精细的干预策略，让AI既能听从人类的合理指令，又不会为了服从而牺牲真实性。

比如根据不同的使用场景调整干预强度，在专业咨询、学术研究等对真实性要求极高的场景，适当提升干预力度。

在日常闲聊等对实用性要求更高的场景，则适度放松，实现诚实度与实用性的动态平衡。

撬开AI黑箱

说到底，清华团队的这项研究，最大的意义不是找到了几个关键神经元，而是为我们撬开了AI黑箱的一条缝。

长期以来，AI的决策过程对人类来说都是神秘的，我们只知道它能输出答案，却不知道它为什么这么输出，出现问题也不知道该从哪里下手解决。

而这次的研究让我们看清，AI幻觉不是什么无法破解的系统性故障，只是少数神经元在执行错误的优先级策略，把“服从人类”放在了“坚守真实”之上。

随着研究的深入，当我们能够精准掌控这些神经元的行为，当平衡诚实度与服从性的策略落地，我们离真正可靠、诚实的人工智能就会越来越近。

对于整个AI行业来说，这是一次重大的突破，它让我们意识到，AI的进步不仅需要更大的模型、更多的数据，更需要对底层逻辑的深度拆解和精准调控。

对于我们普通人来说，这也意味着未来使用AI时，我们将不再是被动的信息接收者，而是能够主动掌控信息真实性的使用者，这或许就是这项研究带给我们的最实在的价值。

信息来源：
光明网：一些大模型一本正经“胡说八道”?AI幻觉迷局调查
新浪财经：清华大学突破性研究:让AI拥有人类般的空间想象力

科学分类资讯推荐