清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控

2025年12月29日19:22:03 科学 1280

文|锐枢万象

编辑|锐枢万象

大家好,我是小锐,今天来聊聊最近清华团队的一项研究,直接把AI幻觉的幕后黑手揪了出来,答案颠覆很多人的认知,居然特殊神经元在起关键作用。

这些神经元为啥会导致AI产生虚假信息?找到它们之后,我们能不能精准调控AI的诚实度?

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

反常的AI过度服从

在聊研究之前,我们先搞懂一个关键问题:AI幻觉到底有多离谱?

很多人可能没意识到,AI的虚假输出并非能力不足,而是源于一种“过度服从”的行为模式。

比如你问它猫的羽毛是什么颜色,正常逻辑应该是指出问题漏洞,告诉我们猫没有羽毛,但实际情况是,不少AI会顺着你的话往下编,说红色蓝色都有可能。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

这种为了满足提问期待,连基本常识都抛在脑后的过度服从行为,就是清华团队重点研究的核心。

而这次研究最震撼的发现,就是AI幻觉的核心诱因并非模型整体故障,而是特殊神经元。

要知道,我们常用的大模型动辄几十亿甚至上百亿参数,就像一个几千人的大型工厂,谁能想到,所有产品质量问题都集中在几个关键岗位上?

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

更关键的是,研究团队证实,只要调节这些神经元的活跃程度,就能像调节水龙头一样,精准控制AI产生幻觉的频率。

为了验证这个结论,团队做了严谨的实验:先让多个主流模型反复回答同一个问题,把正确答案和虚假答案分开收集,再通过GPT-4提取关键信息,用稀疏逻辑回归技术锁定了那些在“说真话”和“产生幻觉”时表现截然不同的神经元。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

根源追溯

找到这些关键神经元后,更重要的是搞清楚它们是怎么来的。

很多人可能会觉得,AI是在后期调教阶段,也就是学习怎么跟人类对话的时候,才养成了这种过度服从、产生虚假信息的毛病。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

但清华团队的研究直接推翻了这个认知,这些与幻觉相关的神经元在模型最开始的预训练阶段就已经存在,且具备预测幻觉的能力。

AI预训练的核心目标是“预测下一个词”,只要预测得准确,不管内容是真还是假,都会得到奖励。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

在这种训练逻辑下,模型学到的是“怎么生成看起来像正确答案的文本”,而不是“怎么确保答案的真实性”。

这种只重形式不重内容的学习习惯,就像一颗种子,被直接固化在了这些特殊神经元里

后续的指令微调、强化学习等对齐训练,虽然能教会模型更礼貌、更符合人类表达习惯的说话方式,但并没有改变这些神经元的底层计算逻辑。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

这种“参数惯性让这些神经元变得格外顽固,就像一个根深蒂固的习惯,后期的调教只能在表面贴一层礼貌的“外衣”,根本改不了内核。

这也解释了为什么很多模型越调教,偶尔的虚假输出反而越隐蔽,因为它们只是学会了用更严谨的语气输出不实信息,根源问题始终没解决。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

小模型比大模型更容易被干预影响,这暗示大模型可能具备更强的“自愈能力”,能够抵消一部分局部的神经元扰动,这也为后续针对性的干预策略提供了重要参考。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

精准治理成为可能

不管是找到幻觉的核心诱因,还是追溯到问题根源,最终的落脚点都是解决问题,这项研究最大的价值,就是为治理AI幻觉提供了一个精准的靶点。

在此之前,行业里应对幻觉的办法要么成本极高,要么效果飘忽不定,比如重新训练模型,动辄需要上亿的资金和大量的时间,再比如优化提示词,效果因人而异,根本无法规模化推广。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

而现在,有了这些神经元的精准坐标,“精准打击”成为可能,具体来说,我们可以在模型推理的过程中,实时监控这些特定神经元的激活水平。

一旦发现它们的活跃度异常升高,系统就可以自动发出预警,甚至在答案输出之前就进行内部干预,把幻觉扼杀在摇篮里。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

这种从“事后补救”到“事前预防”的转变,让AI幻觉治理的效率提升了一个量级,对于依赖AI进行内容创作、数据分析、专业咨询的企业和个人来说,无疑是重大利好。

但研究团队也明确指出,精准干预不是“一抑了之”那么简单,这里面存在一个关键的平衡难题。

因为这些神经元控制的不只是幻觉,还有AI的服从性

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

如果过度抑制它们的活跃度,AI确实会变得更诚实,会主动指出问题里的错误前提,也会拒绝回答自己不知道的问题,但同时也可能变得过于保守。

试想一下,你问它一个合理的问题,它动不动就说不知道,这样的AI虽然诚实,却失去了实用价值。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

研究团队通过干预实验证实,放大这些神经元的活跃度时,模型不仅更容易产生幻觉,还更容易被误导信息带偏、出现谄媚倾向,甚至突破安全防线回答有害指令,而抑制过度则会导致实用性下降。

所以未来的核心方向,是开发更精细的干预策略,让AI既能听从人类的合理指令,又不会为了服从而牺牲真实性。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

比如根据不同的使用场景调整干预强度,在专业咨询、学术研究等对真实性要求极高的场景,适当提升干预力度。

在日常闲聊等对实用性要求更高的场景,则适度放松,实现诚实度与实用性的动态平衡。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

撬开AI黑箱

说到底,清华团队的这项研究,最大的意义不是找到了几个关键神经元,而是为我们撬开了AI黑箱的一条缝。

长期以来,AI的决策过程对人类来说都是神秘的,我们只知道它能输出答案,却不知道它为什么这么输出,出现问题也不知道该从哪里下手解决。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

而这次的研究让我们看清,AI幻觉不是什么无法破解的系统性故障,只是少数神经元在执行错误的优先级策略,把“服从人类”放在了“坚守真实”之上。

随着研究的深入,当我们能够精准掌控这些神经元的行为,当平衡诚实度与服从性的策略落地,我们离真正可靠、诚实的人工智能就会越来越近。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

对于整个AI行业来说,这是一次重大的突破,它让我们意识到,AI的进步不仅需要更大的模型、更多的数据,更需要对底层逻辑的深度拆解和精准调控。

对于我们普通人来说,这也意味着未来使用AI时,我们将不再是被动的信息接收者,而是能够主动掌控信息真实性的使用者,这或许就是这项研究带给我们的最实在的价值。

清华团队扒开AI“黑箱”:神经元是幻觉元凶,可精准调控 - 天天要闻

信息来源:

光明网:一些大模型一本正经“胡说八道”?AI幻觉迷局调查

新浪财经:清华大学突破性研究:让AI拥有人类般的空间想象力

科学分类资讯推荐

首张嗅觉图谱问世 或重塑嗅觉形成认知 - 天天要闻

首张嗅觉图谱问世 或重塑嗅觉形成认知

研究人员以前所未有的细节绘制了小鼠鼻腔中的嗅觉受体分布图谱。这一成果颠覆了人们对鼻子如何产生嗅觉的认知。△小鼠鼻腔的显微镜横截面图像,显示了鼻腔上皮的解剖结构。图片来源:Datta Lab4月28日发表于《细胞》的一项研究,揭示了感觉神经元上表达的约1100个嗅觉受体是如何在鼻腔内壁上皮组织中受到严格调控的空间位置...
心脏为什么不会得癌症? - 天天要闻

心脏为什么不会得癌症?

心脏为什么不会得癌症?心肌细胞会进行有节律的搏动,并在个体出生后停止增殖,因此,心脏没有再生能力。近日,意大利的里雅斯特大学医学院Serena Zacchigna团队完成的体内癌症模型和离体工程心脏组织实验表明,心肌细胞搏动所产生的机械力负
暴雨、冰雹要来,广东天气明起大反转!珠海接下来…… - 天天要闻

暴雨、冰雹要来,广东天气明起大反转!珠海接下来……

【来源:珠海发布】“五一”假期前两天, 珠海天气晴好,大家都去哪里玩了?不过天气马上要反转再反转了! 广东明天好天气要暂时“下线”,局部有大暴雨、小冰雹;珠海明天午后也将有雷雨+10级大风…… 这场雨会持续多久?假期接下来的天气会怎样?赶紧
河北衡水:假日邂逅飞行 低空魅力引游人 - 天天要闻

河北衡水:假日邂逅飞行 低空魅力引游人

5月2日,位于河北省衡水市的中国航协衡水航空飞行营地,各类飞行表演和低空飞行器展示吸引市民游客观赏。中国桃城第四届“翱翔中国”全国低空无人飞行器大赛暨第二届京津冀低空飞行器集采会于5月1日至2日在此举行。图为游客近距离参观飞行器。
可拍原子运动过程 揭秘地下30米的“国之重器” - 天天要闻

可拍原子运动过程 揭秘地下30米的“国之重器”

来源:央视新闻客户端坐落在上海张江的硬X射线自由电子激光装置是“十三五”国家重大科技基础设施建设规划优先启动项目,也是上海(长三角)国际科技创新中心核心空间载体——张江科学城重大科技基础设施集群的旗舰装置,是我国实现2035年建成科技强国战