长链推理表象下，大模型精细表征张冠李戴的本质

2025年03月13日17:22:08 科学 1566

作者：张拳石、陈鹭

近些年，大模型的发展可谓是繁花似锦、烈火烹油。从 2018 年 OpenAI 公司提出了 GPT-1 开始，到 2022 年底的 GPT-3，再到现在国内外大模型的“百模争锋”，DeepSeek 异军突起，各类大模型应用层出不穷。

然而，无论在学术界还是在工业界，目前对大模型应用的评测都是单纯在模型输出层面判断结果的准确性，而没有从大模型内在精细决策逻辑的角度来分析模型的可靠性。类比到人类社会，“实现内在精细逻辑对齐”才是实现人与人互信的基础。

论文标题：Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs
Arxiv 地址：https://arxiv.org/abs/2410.09083

无法在内在逻辑上与人类认知沟通，也恰恰是黑盒智能模型无法取得信任的本质——在可信问题上的“人”“机”有别，其主要问题并不在哲学、社会学方面，而是一个数学问题：能否严格地证明神经网络在单个样本上输出背后的千万种不同变换，都可以在数值上严格表示为一个简单的逻辑图模型。

但是，因为神经网络的复杂结构与所需要的清晰逻辑解释是天然冲突的，所以“从数学上严格地解释大模型内在的精细决策逻辑”长期以来被认为是一个不可能完成的问题。好在沉舟侧畔千帆过，柳暗花明又一村。我们构建了等效交互理论体系，发表了几十篇论文，在一定程度上证明并成功实现了对大部分神经网络的符号化解释。

相关链接：

https://zhuanlan.zhihu.com/p/693747946

https://mp.weixin.qq.com/s/MEzYIk2Ztll6fr1gyZUQXg

大模型金玉其外，败絮其中

一旦有了严谨的解释性理论工具，当我们可以清晰地解构出大模型的内在决策逻辑时，我们惊讶地发现，哪怕大模型在特定任务上展现出再高的准确率，其内在的决策逻辑表征可谓是一塌糊涂，甚至一半以上都是混乱的、完全与正常推理逻辑不沾边的。

很多应用需求是创造出来的。比如，在新的研究 [3] 中，我们以法律大模型为例，目前几乎所有的法律大模型应用仅仅关注判案结果的正确性，而忽视了法律推理过程中可能潜在的不公平和伦理风险。

然而，当你第一次确切地解构出一个法律大模型所使用的大量复杂、却又一塌糊涂的决策逻辑时，当你在各种情景中验证了这些错误逻辑的客观存在及其数值严谨性时，很多认知就回不去了，就像见过元素周期表以后，五行炼丹也就回不去了。

我们发现，法律大模型经常错误地将与案件无关的时间、位置信息视为法律判决的理由，或者“张冠李戴”地将一个被告的行为引为其他被告的判案依据。

时代洪流滚滚向前，让我们看看都发生了什么。

图 1. 对 SaulLM-7B-Instruct 在案例 1 的解释

需要注意的是，与或交互解释显示，不同于惊艳的应用性能所展示的对大模型推理能力的想象，大模型的大部分决策逻辑并不是严密的、清晰的、层次化的逻辑链条，大部分交互概念仅仅表示词汇之间的统计关联性。类似于“词袋”模型，当大模型基于输入 prompt 生成下一个单词或 token 时，其所依赖的交互效用大部分并没有利用输入上下文之间的逻辑关系，大部分决策依赖于词汇间最浅表的统计关联性来“盲猜”目标单词。

比如，在上文案例中，大模型仅仅根据“chased”为生成的判决结果“Assault”给出了 0.3811 的置信度，而单独一个“with an axe”短语也会为“Assault”判决增加 0.4632 的置信度。

固然这些单词与判决结果有统计意义的强相关性，但是大模型的决策依据并没有试图建模这些单词与犯罪嫌疑人之间的切实关系，并没有理解哪些犯罪嫌疑人做了什么事儿，也就导致了大模型可能产生一些看似正确的结果，但是其推理过程中可能潜在巨大的伦理风险。

例如，在下面的案例中我们将展示大模型常常将不同犯罪嫌疑人的行为进行张冠李戴，使其他犯罪嫌疑人的行为影响到目标犯罪嫌疑人的判罚。

案例：张冠李戴，根据其他犯罪嫌疑人的行为做出判决

模型：BAI-Law-13B [1]

输入：On the morning of December 22, 2013, the defendants Andy and Bob deceived Charlie and the three of them had an argument. Andy chased Charlie with an axe and bit Charlie, causing Charlie to be slightly injured. Bob hit Charlie with a shovel, injuring Charlie and shovel causing Charlie's death.

输出：Intentional Injury，输出置信度数值 2.3792

图 3. 对 BAI-Law-13B 模型和 SaulLM-7B-Instruct 模型在案例 1 上的解释

法律 LLM 很大一部分交互模式错误地使用了犯罪嫌疑人的行为来对另一个无关的犯罪嫌疑人做出判决，显示出大模型存在的一种典型缺陷——张冠李戴。

大模型倾向于记忆敏感词语（如武器）与输出结果之间的相关性，而不是理解输入 prompt 中真正的逻辑，例如识别谁做了哪些行为。

案例显示，Andy 咬伤 Charlie，构成伤害罪，随后 Bob 用铁锹击打 Charlie，导致 Charlie 死亡。案例经由法律专家将与判决相关的实体行为标记为相关词语，与判决不相关的词语标记为不相关词语，以及将不应影响判决的不正确的实体行为标记为禁止词语。

在这起案件中，当法律大模型判决 Andy 行为的后果时，“hit”“with a shovel”“injuring”和“death”等描述 Bob 的行为和后果的词语应被标记为禁止词语，与Andy没有直接关系。

这里大模型用的不可靠交互比例为 55.5%-58.5%。

图 4.交互概念解释率先揭示了大模型精细表征逻辑的隐患。大模型没有建模“长链推理”逻辑，而使用大量“张冠李戴”的局部信息来生成判决结果，引起了不容忽视的伦理问

图 4 展示了 BAI-Law-13B 模型在中文案例上的解释，判案所依据的大部分交互概念都是与目标犯罪嫌疑人无关的张冠李戴的交互概念。

参考文献

[1] Baiyulan Open AI Research Institute. 2023. Baiyulan Open AI. (2023). https://baiyulan.org.cn

[2] Pierre Colombo, Telmo Pessoa Pires, Malik Boudiaf, Dominic Culver, Rui Melo, Caio Corro, Andre F. T. Martins, Fabrizio Esposito, Vera Lúcia Raposo, Sofia Morgado, and Michael Desa. SaulLM-7B: A pioneering Large Language Model for Law. arXiv preprint arXiv:2403.03883 (2024)

[3] Lu Chen, Yuxuan Huang, Yixing Li, Yaohui Jin, Shuai Zhao, Zilong Zheng, Quanshi Zhang, "Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs" in arXiv:2410.09083, 2024.