Anthropic用AI显微镜扒开Claude大脑结构，揭示语言模型行为机制

2025年03月28日20:33:06 科学 1289

当地时间 3 月 27 日，Anthropic 在一篇技术论文中介绍了一种名为“通路追踪”的技术，该技术让人们能够逐步追踪大语言模型内部的决策过程。

（来源：Anthropic）

研究中，Anthropic 采用通路追踪技术，来观察其大语言模型 Claude 3.5 Haiku 在执行各种任务时的表现。

通路，可以将模型的不同组件连接在一起。2024 年，Anthropic 发现 Claude 中的某些组件与现实世界中的概念相对应。基于上述发现以及其他已有成果，Anthropic 在本次论文中揭示了各个组件之间的一些联系。

论文中，Anthropic 介绍了一种揭示语言模型行为背后机制的方法。其通过在替代模型中追踪到的各个计算步骤，来生成模型在目标提示词上计算过程的图表描述。

这种替代模型使用一个更易解释的组件（Anthropic 将其称之为跨层转码器），来替换原始模型中待模拟的部分（Anthropic 将其称之为多层感知器）。

与此同时，Anthropic 还开发了一套可视化和验证工具，以用于研究支持 18 层语言模型的简单行为的“归因图”。

（来源：Anthropic）

让跨层转码器实现帕累托改进

据了解，深度学习模型通过分布在许多计算单元上的一系列转换来产生输出。

此前，业内曾尝试采取机制可解释性的方法，来使用那些人类可以理解的语言来描述这些转变。

Anthropic 团队的方法，则遵循两步走的策略。

第一步，识别出模型在其计算过程中所使用的特征，也就是那些具有可解释性的基本组成部分。

第二部，描述这些特征通过相互作用来生成模型输出的过程，也就是描述其运行机制。

Anthropic 认为，一种符合直觉的方法是将模型的原始神经元作为基本组成部分。

正是利用这种方法，此前已有研究成功识别了视觉模型中的通路，这些通路是由“似乎代表有意义的视觉概念”的神经元构建的。

然而，模型神经元通常是多义的，并混合着许多不相关的概念。

在 AI 领域，多义性通常指一个词语、句子或数据在不同语境下可能具有多种含义或解释的现象。业内认为，多义性的原因之一可能是由于叠加现象的存在，由于模型需要表征的概念数量超过神经元数量，因此它们不得不将概念表征分散到多个神经元中。

神经网络的基本计算单元（即神经元），与有意义概念之间的这种不匹配，已经被证明是影响机制解释研究进展的主要障碍，尤其在理解语言模型时更是如此。

近年来，稀疏编码模型比如稀疏自编码器、转码器和交叉编码器，已被用于识别叠加表征中可解释特征。

这些方法能将模型激活分解为稀疏活跃的组件（即特征）。而在许多情况下，这些特征恰好对应着人类可以理解的概念。

尽管当前的稀疏编码方法在识别特征上并不完美，但其所产生的结果很容易进行解释，这正是 Anthropic 研究由这些特征组成的通路的原因。

论文中，Anthropic 描述了其所使用的方法，所涉及到的关键方法论如下。

Anthropic 采用转码器的变体来提取特征，这种方法能构建一个可解释的替代模型，以便作为原始模型的代理来开展研究。更重要的是，该方法让 Anthropic 能够直接分析特征与特征之间的交互作用。

Anthropic 的分析基于跨层转码器，其中每个特征从一层残差流中读取，并贡献给原始模型的所有后续多层感知器层的输出。

Anthropic 使用模型所学习到的跨层转码器特征，来替代模型的多层感知器，从而能在大约一半的情况下匹配底层模型的输出。

论文中，Anthropic 还重点介绍了“归因图”。归因图描述了模型在特定提示下为目标 token 生成输出的步骤。归因图中的节点表示活动特征、提示中的标记嵌入、重构误差和输出对数几率。图中的边表示节点之间的线性效应，因此每个特征的活动是其输入边的和。

在实验设置上，Anthropic 的设计方案如下：对于特定的输入，特征之间的直接相互作用是线性的。更重要的是，Anthropic 冻结了注意力模式和归一化分母，并使用转码器来实现这种线性关系。此外，特征之间也存在间接相互作用，这些间接作用由其他特征介导，并对应于多步骤的路径。

尽管 Anthropic 提取的特征具有稀疏性，但在处理特定输入时活跃特征的数量仍然过多，这就导致难以直接解读生成的图谱。

为了降低复杂度，Anthropic 通过识别对于模型在特定 token 位置输出贡献最大的节点和边，来进行图谱剪枝。这种方法使其能够为任意输入去生成稀疏、可解释的模型计算图谱。

与此同时，Anthropic 还设计了一个交互式界面，以用于探索归因图及其所包含的特征，以便能够快速识别和突出显示其中的关键机制。

需要指出的是在研究神经通路的时候，Anthropic 采取的是间接路径。由于替代模型采用的机制可能与底层原模型存在差异，因此对于归因图中发现的机制进行验证至关重要。

为此，Anthropic 通过扰动实验开展验证。具体而言：当沿特定特征方向施加扰动时，通过测量其他特征激活的变化程度，来检验这些变化是否与归因图的预测一致。

实验结果表明：尽管存在个别偏差，但是跨不同输入文本的扰动实验结果，总体上与归因图具有定性一致性。

虽然本次研究聚焦于研究单个提示的归因图，但是本次方法也使 Anthropic 能够直接研究替换模型的权重。

此外，Anthropic 还针对跨层转码器及其生成的归因图进行了定量评估。结果证明：相比神经元分析和单层转码器，跨层转码器实现了帕累托改进。帕累托改进指的是一种“零损失”状态，即通过优化资源配置，达到一种相对理想的平衡。

（来源：Anthropic）

实现逆向工程框架

在论文中，Anthropic 还介绍了其所提出的神经网络逆向工程方法，这一方法包含四个基本步骤：组件分解、组件特征描述、组件交互行为表征、描述验证。

论文中，Anthropic 通过以下方法实现了逆向工程框架：

首先是分解阶段：训练具有稀疏特征的跨层转码器以便替代多层感知器模块；

其次是描述阶段：根据特征激活的数据集样本进行特征描述；

接着是交互分析阶段：利用归因图表征特定输入提示下的特征交互；

最后是验证阶段：通过因果导向干预实验验证所得假设。

研究中，Anthropic 并没有使用原始神经元。虽然神经元的最高激活值通常可解释，但是对于较低激活值的来说，它们往往难以进行解读。

理论上，可以通过设定阈值将神经元激活限制在可解释区间，但是本次研究发现：与转码器或跨层转码器相比，这种阈值处理会显著损害模型性能。

这意味着经过训练的替代层，能在可解释性、L0 稀疏度和均方误差三个维度上，能够实现更好的帕累托改进。

另外，Anthropic 采用线性直接效应、而非采用非线性归因方法或消融方法来计算特征间交互作用。

尽管已有大量研究探讨非线性神经网络中的归因方法，但是即使在最严谨的非线性场景 credit 分配方案中，仍然存在一些固有缺陷。

由于 Anthropic 的目标是希望能够清晰地推断大模型的机制原理，因此其通过以下设计来实现条件线性，即在固定注意力模式与归一化分母的前提下，确保前一层特征与下一层预激活特征间的直接交互能够呈现出线性关系。

这种设计方案可以将问题分解为两个部分：可以通过机制化方法进行严谨理解的部分，以及仍需探索的另一部分。

值得注意的是，实现这种线性直接效应的关键前提，正是 Anthropic 此前所采用转码器的技术决策。

为了实现更加通用的解决方案，Anthropic 采取了以下做法：

首先，其针对注意力路径进行整合处理。归因图中的每条边都代表一对特征间的直接交互作用，其数值是所有可能直接交互路径的加总。在这些路径中，有些主要通过残差流进行传递，另一些则经由注意力头进行传递。在本次研究中，Anthropic 暂未区分这些路径类型，因此这种做法虽然会丢失大量有趣的结构信息，但是能够显著简化分析的复杂度。

其次，其忽略了 QK 通路（QK-circuit）。在 AI 领域，QK 通路是用于解析注意力机制运作原理的关键概念。Anthropic 根据框架将理解 Transformer 的过程分为两部分。一方面，其所关注的问题是：在特定注意力头或注意力头集合条件下，到底有着怎样的特征-特征交互？然而这也留下了另一个问题：为什么注意力头会关注不同的部分？关于这一问题，Anthropic 尚未对其进行研究。

再次，Anthropic 仅使用稀疏惩罚和重建损失来进行交叉编码器训练。尽管其最终目标是找到具有稀疏且可解释的边的通路，但在一个机制上忠实于底层模型的替换模型中，Anthropic 并未针对这些目标进行训练。

“这只是冰山一角”

对于本次研究，美国布朗大学研究大语言模型的杰克·梅罗洛（Jack Merullo）表示：“我认为这是一项非常酷的工作，从方法论上讲这是一项非常重要的进步。”

以色列特拉维夫大学的埃登·比兰（Eden Biran）也对此表示赞同：“在像 Claude 这样的大型先进模型中找到通路是一项不简单的工程壮举，这表明通路可以扩展，并且可能是一种解释语言模型的良好方法。”

需要说明的是，跨层转码器需要投入较高的前期成本，但这些成本可以分摊到 Anthropic 后续的通路发现研究中。

Anthropic 指出，这种方法对于通路可解释性和简约性的提升，足以证明其具备投资价值。尽管如此，其表示业内人士仍然可以选用单层转码器甚至多层感知器神经元等替代方案，因为这些方法同样能产生有价值的信息。与此同时，Anthropic 认为未来很可能出现优于训练跨层转码器的新方法。

为帮助业内人士更好地复现本次成果，Anthropic 分享了跨层转码器实施指南、剪枝方法细节，以及支持交互式图形分析界面的前端代码。

Anthropic 的研究人员、本次论文的通讯作者约书亚·巴特森（Joshua Batson）说道：“这只是冰山一角。Anthropic 可能只看到了事情的一小部分，但这已经足以让我们看到令人难以置信的结构了。”

（来源：https://www.linkedin.com/in/joshua-batson-63ab9a82/）

由于人们对于大语言模型依旧知之甚少，因此任何新的见解都是向前迈出的一大步。而深入了解这些模型在底层到底是如何工作的，将让人们能够设计和训练更好更强大的模型。

不过，这并不意味着 Anthropic 已经找到了模型的所有组成部分。有些地方已经被发现，但很多其他地方仍不清楚，这就像显微镜的失真一样。而且，人类研究人员需要花费数小时，才能追踪到对于哪怕是非常简短的提示的反应。更重要的是，大语言模型可以执行大量不同的任务，而 Anthropic 的这一系列研究目前只研究了其中的 10 个任务。

虽然通路追踪可用于观察大语言模型内部的结构，但它无法揭示这些结构在训练过程中是如何以及为何形成的机制。不过，Anthropic 的这项研究标志着一个新起点的开始，让人们终于有望找到模型到底是如何工作的真实证据。

参考资料：

https://transformer-circuits.pub/2025/attribution-graphs/methods.html#discussion

https://www.technologyreview.com/2025/03/27/1113916/anthropic-can-now-track-the-bizarre-inner-workings-of-a-large-language-model/

运营/排版：何晨龙