文|锐枢万象
编辑|锐枢万象
大家好,我是小锐,今天来聊聊最近清华团队的一项研究,直接把AI幻觉的幕后黑手揪了出来,答案颠覆很多人的认知,居然特殊神经元在起关键作用。
这些神经元为啥会导致AI产生虚假信息?找到它们之后,我们能不能精准调控AI的诚实度?
反常的AI过度服从
在聊研究之前,我们先搞懂一个关键问题:AI幻觉到底有多离谱?
很多人可能没意识到,AI的虚假输出并非能力不足,而是源于一种“过度服从”的行为模式。
比如你问它猫的羽毛是什么颜色,正常逻辑应该是指出问题漏洞,告诉我们猫没有羽毛,但实际情况是,不少AI会顺着你的话往下编,说红色蓝色都有可能。
这种为了满足提问期待,连基本常识都抛在脑后的过度服从行为,就是清华团队重点研究的核心。
而这次研究最震撼的发现,就是AI幻觉的核心诱因并非模型整体故障,而是特殊神经元。
要知道,我们常用的大模型动辄几十亿甚至上百亿参数,就像一个几千人的大型工厂,谁能想到,所有产品质量问题都集中在几个关键岗位上?
更关键的是,研究团队证实,只要调节这些神经元的活跃程度,就能像调节水龙头一样,精准控制AI产生幻觉的频率。
为了验证这个结论,团队做了严谨的实验:先让多个主流模型反复回答同一个问题,把正确答案和虚假答案分开收集,再通过GPT-4提取关键信息,用稀疏逻辑回归技术锁定了那些在“说真话”和“产生幻觉”时表现截然不同的神经元。
根源追溯
找到这些关键神经元后,更重要的是搞清楚它们是怎么来的。
很多人可能会觉得,AI是在后期调教阶段,也就是学习怎么跟人类对话的时候,才养成了这种过度服从、产生虚假信息的毛病。
但清华团队的研究直接推翻了这个认知,这些与幻觉相关的神经元在模型最开始的预训练阶段就已经存在,且具备预测幻觉的能力。
AI预训练的核心目标是“预测下一个词”,只要预测得准确,不管内容是真还是假,都会得到奖励。
在这种训练逻辑下,模型学到的是“怎么生成看起来像正确答案的文本”,而不是“怎么确保答案的真实性”。
这种只重形式不重内容的学习习惯,就像一颗种子,被直接固化在了这些特殊神经元里。
后续的指令微调、强化学习等对齐训练,虽然能教会模型更礼貌、更符合人类表达习惯的说话方式,但并没有改变这些神经元的底层计算逻辑。
这种“参数惯性”让这些神经元变得格外顽固,就像一个根深蒂固的习惯,后期的调教只能在表面贴一层礼貌的“外衣”,根本改不了内核。
这也解释了为什么很多模型越调教,偶尔的虚假输出反而越隐蔽,因为它们只是学会了用更严谨的语气输出不实信息,根源问题始终没解决。
小模型比大模型更容易被干预影响,这暗示大模型可能具备更强的“自愈能力”,能够抵消一部分局部的神经元扰动,这也为后续针对性的干预策略提供了重要参考。
精准治理成为可能
不管是找到幻觉的核心诱因,还是追溯到问题根源,最终的落脚点都是解决问题,这项研究最大的价值,就是为治理AI幻觉提供了一个精准的靶点。
在此之前,行业里应对幻觉的办法要么成本极高,要么效果飘忽不定,比如重新训练模型,动辄需要上亿的资金和大量的时间,再比如优化提示词,效果因人而异,根本无法规模化推广。
而现在,有了这些神经元的精准坐标,“精准打击”成为可能,具体来说,我们可以在模型推理的过程中,实时监控这些特定神经元的激活水平。
一旦发现它们的活跃度异常升高,系统就可以自动发出预警,甚至在答案输出之前就进行内部干预,把幻觉扼杀在摇篮里。
这种从“事后补救”到“事前预防”的转变,让AI幻觉治理的效率提升了一个量级,对于依赖AI进行内容创作、数据分析、专业咨询的企业和个人来说,无疑是重大利好。
但研究团队也明确指出,精准干预不是“一抑了之”那么简单,这里面存在一个关键的平衡难题。
因为这些神经元控制的不只是幻觉,还有AI的服从性。
如果过度抑制它们的活跃度,AI确实会变得更诚实,会主动指出问题里的错误前提,也会拒绝回答自己不知道的问题,但同时也可能变得过于保守。
试想一下,你问它一个合理的问题,它动不动就说不知道,这样的AI虽然诚实,却失去了实用价值。
研究团队通过干预实验证实,放大这些神经元的活跃度时,模型不仅更容易产生幻觉,还更容易被误导信息带偏、出现谄媚倾向,甚至突破安全防线回答有害指令,而抑制过度则会导致实用性下降。
所以未来的核心方向,是开发更精细的干预策略,让AI既能听从人类的合理指令,又不会为了服从而牺牲真实性。
比如根据不同的使用场景调整干预强度,在专业咨询、学术研究等对真实性要求极高的场景,适当提升干预力度。
在日常闲聊等对实用性要求更高的场景,则适度放松,实现诚实度与实用性的动态平衡。
撬开AI黑箱
说到底,清华团队的这项研究,最大的意义不是找到了几个关键神经元,而是为我们撬开了AI黑箱的一条缝。
长期以来,AI的决策过程对人类来说都是神秘的,我们只知道它能输出答案,却不知道它为什么这么输出,出现问题也不知道该从哪里下手解决。
而这次的研究让我们看清,AI幻觉不是什么无法破解的系统性故障,只是少数神经元在执行错误的优先级策略,把“服从人类”放在了“坚守真实”之上。
随着研究的深入,当我们能够精准掌控这些神经元的行为,当平衡诚实度与服从性的策略落地,我们离真正可靠、诚实的人工智能就会越来越近。
对于整个AI行业来说,这是一次重大的突破,它让我们意识到,AI的进步不仅需要更大的模型、更多的数据,更需要对底层逻辑的深度拆解和精准调控。
对于我们普通人来说,这也意味着未来使用AI时,我们将不再是被动的信息接收者,而是能够主动掌控信息真实性的使用者,这或许就是这项研究带给我们的最实在的价值。
信息来源:
光明网:一些大模型一本正经“胡说八道”?AI幻觉迷局调查
新浪财经:清华大学突破性研究:让AI拥有人类般的空间想象力