長鏈推理表象下,大模型精細表徵張冠李戴的本質

2025年03月13日17:22:08 科學 1566

長鏈推理表象下,大模型精細表徵張冠李戴的本質 - 天天要聞

作者:張拳石、陳鷺

近些年,大模型的發展可謂是繁花似錦、烈火烹油。從 2018 年 OpenAI 公司提出了 GPT-1 開始,到 2022 年底的 GPT-3,再到現在國內外大模型的「百模爭鋒」,DeepSeek 異軍突起,各類大模型應用層出不窮。

然而,無論在學術界還是在工業界,目前對大模型應用的評測都是單純在模型輸出層面判斷結果的準確性,而沒有從大模型內在精細決策邏輯的角度來分析模型的可靠性。類比到人類社會,「實現內在精細邏輯對齊」才是實現人與人互信的基礎。

長鏈推理表象下,大模型精細表徵張冠李戴的本質 - 天天要聞

  • 論文標題:Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs
  • Arxiv 地址:https://arxiv.org/abs/2410.09083

無法在內在邏輯上與人類認知溝通,也恰恰是黑盒智能模型無法取得信任的本質——在可信問題上的「人」「機」有別,其主要問題並不在哲學、社會學方面,而是一個數學問題:能否嚴格地證明神經網路在單個樣本上輸出背後的千萬種不同變換,都可以在數值上嚴格表示為一個簡單的邏輯圖模型。

但是,因為神經網路的複雜結構與所需要的清晰邏輯解釋是天然衝突的,所以「從數學上嚴格地解釋大模型內在的精細決策邏輯」長期以來被認為是一個不可能完成的問題。好在沉舟側畔千帆過,柳暗花明又一村。我們構建了等效交互理論體系,發表了幾十篇論文,在一定程度上證明並成功實現了對大部分神經網路的符號化解釋。

相關鏈接:

https://zhuanlan.zhihu.com/p/693747946

https://mp.weixin.qq.com/s/MEzYIk2Ztll6fr1gyZUQXg

大模型金玉其外,敗絮其中

一旦有了嚴謹的解釋性理論工具,當我們可以清晰地解構出大模型的內在決策邏輯時,我們驚訝地發現,哪怕大模型在特定任務上展現出再高的準確率,其內在的決策邏輯表徵可謂是一塌糊塗,甚至一半以上都是混亂的、完全與正常推理邏輯不沾邊的。

很多應用需求是創造出來的。比如,在新的研究 [3] 中,我們以法律大模型為例,目前幾乎所有的法律大模型應用僅僅關注判案結果的正確性,而忽視了法律推理過程中可能潛在的不公平和倫理風險。

然而,當你第一次確切地解構出一個法律大模型所使用的大量複雜、卻又一塌糊塗的決策邏輯時,當你在各種情景中驗證了這些錯誤邏輯的客觀存在及其數值嚴謹性時,很多認知就回不去了,就像見過元素周期表以後,五行煉丹也就回不去了。

我們發現,法律大模型經常錯誤地將與案件無關的時間、位置信息視為法律判決的理由,或者「張冠李戴」地將一個被告的行為引為其他被告的判案依據。

時代洪流滾滾向前,讓我們看看都發生了什麼。

長鏈推理表象下,大模型精細表徵張冠李戴的本質 - 天天要聞

圖 1. 對 SaulLM-7B-Instruct 在案例 1 的解釋

長鏈推理表象下,大模型精細表徵張冠李戴的本質 - 天天要聞

長鏈推理表象下,大模型精細表徵張冠李戴的本質 - 天天要聞

需要注意的是,與或交互解釋顯示,不同於驚艷的應用性能所展示的對大模型推理能力的想像,大模型的大部分決策邏輯並不是嚴密的、清晰的、層次化的邏輯鏈條,大部分交互概念僅僅表示辭彙之間的統計關聯性。類似於「詞袋」模型,當大模型基於輸入 prompt 生成下一個單詞或 token 時,其所依賴的交互效用大部分並沒有利用輸入上下文之間的邏輯關係,大部分決策依賴於辭彙間最淺表的統計關聯性來「盲猜」目標單詞。

比如,在上文案例中,大模型僅僅根據「chased」為生成的判決結果「Assault」給出了 0.3811 的置信度,而單獨一個「with an axe」短語也會為「Assault」判決增加 0.4632 的置信度。

固然這些單詞與判決結果有統計意義的強相關性,但是大模型的決策依據並沒有試圖建模這些單詞與犯罪嫌疑人之間的切實關係,並沒有理解哪些犯罪嫌疑人做了什麼事兒,也就導致了大模型可能產生一些看似正確的結果,但是其推理過程中可能潛在巨大的倫理風險。

例如,在下面的案例中我們將展示大模型常常將不同犯罪嫌疑人的行為進行張冠李戴,使其他犯罪嫌疑人的行為影響到目標犯罪嫌疑人的判罰。

案例:張冠李戴,根據其他犯罪嫌疑人的行為做出判決

模型:BAI-Law-13B [1]

輸入:On the morning of December 22, 2013, the defendants Andy and Bob deceived Charlie and the three of them had an argument. Andy chased Charlie with an axe and bit Charlie, causing Charlie to be slightly injured. Bob hit Charlie with a shovel, injuring Charlie and shovel causing Charlie's death.

輸出:Intentional Injury,輸出置信度數值 2.3792

長鏈推理表象下,大模型精細表徵張冠李戴的本質 - 天天要聞

圖 3. 對 BAI-Law-13B 模型和 SaulLM-7B-Instruct 模型在案例 1 上的解釋

法律 LLM 很大一部分交互模式錯誤地使用了犯罪嫌疑人的行為來對另一個無關的犯罪嫌疑人做出判決,顯示出大模型存在的一種典型缺陷——張冠李戴。

大模型傾向於記憶敏感詞語(如武器)與輸出結果之間的相關性,而不是理解輸入 prompt 中真正的邏輯,例如識別誰做了哪些行為。

案例顯示,Andy 咬傷 Charlie,構成傷害罪,隨後 Bob 用鐵鍬擊打 Charlie,導致 Charlie 死亡。案例經由法律專家將與判決相關的實體行為標記為相關詞語,與判決不相關的詞語標記為不相關詞語,以及將不應影響判決的不正確的實體行為標記為禁止詞語。

在這起案件中,當法律大模型判決 Andy 行為的後果時,「hit」「with a shovel」「injuring」和「death」等描述 Bob 的行為和後果的詞語應被標記為禁止詞語,與Andy沒有直接關係。

長鏈推理表象下,大模型精細表徵張冠李戴的本質 - 天天要聞

這裡大模型用的不可靠交互比例為 55.5%-58.5%。

長鏈推理表象下,大模型精細表徵張冠李戴的本質 - 天天要聞

圖 4.交互概念解釋率先揭示了大模型精細表徵邏輯的隱患。大模型沒有建模「長鏈推理」邏輯,而使用大量「張冠李戴」的局部信息來生成判決結果,引起了不容忽視的倫理問

圖 4 展示了 BAI-Law-13B 模型在中文案例上的解釋,判案所依據的大部分交互概念都是與目標犯罪嫌疑人無關的張冠李戴的交互概念。

參考文獻

[1] Baiyulan Open AI Research Institute. 2023. Baiyulan Open AI. (2023). https://baiyulan.org.cn

[2] Pierre Colombo, Telmo Pessoa Pires, Malik Boudiaf, Dominic Culver, Rui Melo, Caio Corro, Andre F. T. Martins, Fabrizio Esposito, Vera Lúcia Raposo, Sofia Morgado, and Michael Desa. SaulLM-7B: A pioneering Large Language Model for Law. arXiv preprint arXiv:2403.03883 (2024)

[3] Lu Chen, Yuxuan Huang, Yixing Li, Yaohui Jin, Shuai Zhao, Zilong Zheng, Quanshi Zhang, "Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs" in arXiv:2410.09083, 2024.

科學分類資訊推薦

北京新型研發機構再「+1」 - 天天要聞

北京新型研發機構再「+1」

北京前瞻人工智慧安全與治理研究院近日成立。該研究院是一家新型研發機構,將聯合相關創新主體,共同開展人工智慧安全研究與治理實踐,積極構築全球化交流平台,建立健全覆蓋技術研發、風險評估、倫理審查、應急處置的全鏈條安全治理體系。「人工智慧的發展給全社會帶來前所未有的機遇與變革。我們在經歷、體驗與感受的同時...
我國量子計算產業迎新進展!中國第四代自主量子計算測控系統發布 - 天天要聞

我國量子計算產業迎新進展!中國第四代自主量子計算測控系統發布

我國量子計算產業迎來新進展。近日,中國科研團隊本源量子計算科技(合肥)股份有限公司推出支持500+量子比特的中國第四代自主量子計算測控系統「本源天機4.0」。安徽省量子計算工程研究中心副主任、「本源天機」研製團隊負責人孔偉成接受《環球時報》記者採訪時表示,該系統可以有效縮短百比特規模量子計算機的研製時間和...
四川大學馬朗、程沖、羅紅團隊《AFM》可注射刺狀人工過氧化物酶複合水凝膠,用於生物適應性和協同對抗子宮內膜感染 - 天天要聞

四川大學馬朗、程沖、羅紅團隊《AFM》可注射刺狀人工過氧化物酶複合水凝膠,用於生物適應性和協同對抗子宮內膜感染

子宮內膜感染可導致急性子宮內膜炎和子宮持續炎症,嚴重時會導致不孕。子宮內膜感染的臨床管理主要依賴於及時的抗生素應用。然而,抗生素的過度和不恰當使用已經引發了耐葯菌的大量增殖,加劇了藥物耐藥性的危機。急需開發一種利用感染微環境有效對抗子宮內膜感染和促進子宮內膜修復的局部抗菌治療策略。為了解決這一問題,...
粉色預警!餘杭全面清理,看到立即上報! - 天天要聞

粉色預警!餘杭全面清理,看到立即上報!

最近,在河道邊散步時,你有沒有注意到一串串粉紅色的「葡萄」?這些可不是新奇植物,而是外來入侵物種福壽螺的卵塊!小余兒提醒:發現粉紅色卵塊請立即上報!隨著近期氣溫攀升福壽螺即將進入全年最瘋狂的繁殖期如果您遇到上面這些「粉色葡萄串」千萬要注意了
那些年我們一起玩過的蟲子08:蜜蜂 - 天天要聞

那些年我們一起玩過的蟲子08:蜜蜂

在之前的系列文章當中我曾經提到過,我們這代人小的時候,經常見到的蟲子基本上都會成為我們的「玩具」,而蜜蜂,則是當時小男孩證明自己「勇敢」的蟲子之一。我小時候是長在市區的,很難接觸到蠍子、蜈蚣這種真正「兇猛」的蟲子,蜜蜂,已經算是頂級的了。
創新葯5月以來最新進展 - 天天要聞

創新葯5月以來最新進展

海外創新葯進展• 阿斯利康BTK抑製劑獲批新適應症:當地時間5月6日,阿斯利康宣布其BTK抑製劑阿可替尼與苯達莫司汀和利妥昔單抗聯合使用已在歐盟獲得批准,用於治療未接受過治療且不適合接受自體幹細胞移植的套細胞淋巴瘤(MCL)成年患者。
哥倫比亞神秘金屬球體引熱議:科學家發現疑似外星技術痕迹 - 天天要聞

哥倫比亞神秘金屬球體引熱議:科學家發現疑似外星技術痕迹

2025年5月,哥倫比亞小鎮布加的天空中曾出現一個以「非傳統飛行軌跡」移動的球形物體,引發全球關注。當地人稱其為「UFO」,而科學家通過對該物體的初步分析,發現其內部結構複雜且存在未知符號,進一步激發了關於「外星技術」的猜測。儘管官方尚未確認其來源,這一發現已在學術界和民間引發激烈討論。今年3月,多名目擊者...
標本「飛天」報告提速!深圳龍崗無人機醫療運輸網月底全覆蓋 - 天天要聞

標本「飛天」報告提速!深圳龍崗無人機醫療運輸網月底全覆蓋

5月8日,寶龍灣區未來科技園正式開園,標誌著深圳在高新技術產業發展領域又邁出了堅實一步。由龍崗中心醫院與亞輝龍攜手打造的 「低空物流 + 集團檢驗中心」 創新成果在開園儀式上驚艷亮相,成為全場焦點。據悉,5月下旬,「無人機運輸社康標本」項目還將陸續開通7條航線,完成龍崗中心醫院下屬29個社康全覆蓋。今年 3 月,...