大模型到底是怎麼「思考」的?第一篇系統性綜述SAE的文章來了

2025年06月23日15:02:05 科技 1370

大模型到底是怎麼「思考」的?第一篇系統性綜述SAE的文章來了 - 天天要聞


作者介紹:本篇文章的作者團隊來自美國四所知名高校:西北大學、喬治亞大學、新澤西理工學院和喬治梅森大學。第一作者束東與共同第一作者吳烜聖、趙海燕分別是上述高校的博士生,長期致力於大語言模型的可解釋性研究,致力於揭示其內部機制與 “思維” 過程。通訊作者為新澤西理工學院的杜夢楠教授。


在 ChatGPT 等大語言模型(LLMs)席捲全球的今天,越來越多的研究者意識到:我們需要的不只是 “會說話” 的 LLM,更是 “能解釋” 的 LLM。我們想知道,這些龐大的模型在接收輸入之後,到底是怎麼 “思考” 的?


為此,一種叫做 Sparse Autoencoder(簡稱 SAE) 的新興技術正迅速崛起,成為當前最熱門的 mechanistic interpretability(機制可解釋性) 路線之一。最近,我們撰寫並發布了第一篇系統性的 SAE 綜述文章,對該領域的技術、演化和未來挑戰做了全面梳理,供關注大模型透明性、可控性和解釋性的研究者參考。


大模型到底是怎麼「思考」的?第一篇系統性綜述SAE的文章來了 - 天天要聞


  • 論文題目:
  • A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models
  • 論文地址:
  • https://arxiv.org/pdf/2503.05613


大模型到底是怎麼「思考」的?第一篇系統性綜述SAE的文章來了 - 天天要聞

(圖 1):該圖展示了 SAE 的基本框架。


什麼是 Sparse Autoencoder?


簡單來說,LLM 內部的許多神經元可能是“多義的”,意思是它們同時處理好幾個不相關的信息。在處理輸入時,LLM 會在內部生成一段高維向量表示,這種表示往往難以直接理解。然後,如果我們將它輸入一個訓練好的 Sparse Autoencoder,它會解構出若干稀疏激活的“特徵單元”(feature),而每一個feature,往往都能被解釋為一段可讀的自然語言概念


舉個例子:假設某個特徵(feature 1)代表 “由鋼鐵建造的建築”,另一個特徵(feature 2)代表 “關於歷史的問題”。當 LLM 接收到輸入 “這座跨海大橋真壯觀” 時,SAE 會激活 feature 1,而不會激活 feature 2。這說明模型 “意識到” 橋是一種鋼結構建築,而並未將其理解為歷史類話題。


而所有被激活的特徵就像拼圖碎片,可以拼接還原出原始的隱藏表示(representation),讓我們得以窺見模型內部的 “思維軌跡”。這也正是我們理解大模型內部機制的重要一步。


大模型到底是怎麼「思考」的?第一篇系統性綜述SAE的文章來了 - 天天要聞

(圖 2):該圖展示了 SAE 的發展歷史。


為什麼大家都在研究 SAE?


過去主流的可解釋方法多依賴於可視化、梯度分析、注意力權重等 “間接信號”,這些方法雖然直觀,但往往缺乏結構性和可控性。而 SAE 的獨特優勢在於:它提供了一種結構化、可操作、且具語義解釋力的全新視角。它能夠將模型內部的黑盒表示分解為一組稀疏、具備明確語義的激活特徵(features)。


更重要的是,SAE 不只是可解釋性工具,更可以用於控制模型怎麼想、發現模型的問題、提升模型的安全性等一系列實際應用。當前,SAE 已被廣泛應用於多個關鍵任務:


  • 概念探測(Concept Discovery):自動從模型中挖掘具有語義意義的特徵,如時間感知、情緒傾向、語法結構等;
  • 模型操控(Steering):通過激活或抑制特定特徵,定向引導模型輸出,實現更精細的行為控制;
  • 異常檢測與安全分析:識別模型中潛藏的高風險特徵單元,幫助發現潛在的偏見、幻覺或安全隱患。


這種 “解釋 + 操控” 的結合,也正是 SAE 能在當前 LLM 可解釋性研究中脫穎而出的關鍵所在。目前包括 OpenAI、Anthropic、Google DeepMind 等機構都在推進 SAE 相關研究與開源項目。


大模型到底是怎麼「思考」的?第一篇系統性綜述SAE的文章來了 - 天天要聞

(圖 3):該圖演示了如何通過 SAE 操控模型輸出,實現對大語言模型行為的定向引導。


本文有哪些內容?


作為該領域的首篇系統綜述,我們的工作涵蓋以下幾個核心部分:


1. Technical Framework of SAEs(SAE 的技術框架)


本部分系統介紹了 SAE 的基本結構及其訓練流程,它是一種特殊的神經網絡。具體包括:


  1. 編碼器:把 LLM 的高維向量表示 “分解” 成一個更高維並且稀疏的特徵向量。
  2. 解碼器:根據這個稀疏特徵向量,嘗試 “重建” 回原始的 LLM 信息。
  3. 稀疏性損失函數:確保重建得足夠準確,並且特徵足夠稀疏。


同時我們總結了現有的常見架構變體與改進策略。例如解決收縮偏差(shrinkage bias)的 Gated SAE,通過直接選擇 Top-K 個激活來強制稀疏性的 TopK SAE,等等。


2. Explainability Analysis of SAEs(SAE 可解釋性分析)


總結當前主流的解釋方法,旨在將 SAE 學習到的稀疏特徵用自然語言進行描述,從而把模型的 “抽象思維” 轉化為人類可理解的見解 。這些方法主要分為兩大類:


  1. 輸入驅動:尋找那些能最大程度激活某個特徵的文本片段。通過總結這些文本,我們就能大致推斷出這個特徵代表什麼意思(如 MaxAct、PruningMaxAct)。
  2. 輸出驅動:將特徵與 LLM 生成的詞語聯繫起來。例如,一個特徵激活時,LLM 最可能輸出哪些詞,這些詞就能幫助我們理解這個特徵的含義(如 VocabProj、Mutual Info)。


3. Evaluation Metrics and Methods(評估指標與方法)


評估 SAE 就像評估一個工具:既要看它內部構造是否合理(結構評估),也要看它實際用起來有沒有效果(功能評估)。


  1. 構性評估:檢查 SAE 是否按設計工作,比如重建的準確度如何,稀疏性是否達到要求(如重構精度與稀疏度)。
  2. 功能評估:評估 SAE 能否幫助我們更好地理解 LLM,以及它學習到的特徵是否穩定和通用(如可解釋性、健壯性與泛化能力)。


4. Applications in Large Language Models(在大語言模型中的應用)


SAE 不僅能幫助我們理解 LLM,還能實際操作它們。我們展示了 SAE 在模型操控、行為分析、拒答檢測、幻覺控制、情緒操控等方面的實際應用案例與前沿成果。


5. 與 Probing 方法的對比分析


除了 SAE,還有一種叫做 “Probing(探針)” 的方法也被用於理解 LLM。本文比較了 SAE 與傳統的 Probing 技術在模型操縱和特徵提取等方面的優勢與不足。儘管 Probing 方法在某些方面表現出色,但 SAE 作為一種新興的機制可解釋性方法,具有其獨特的潛力。然而,研究也指出,在某些複雜場景(如數據稀缺、類別不平衡等)下,SAE 在提供一致優勢方面仍有很長的路要走。


6. 當前研究挑戰與未來方向


儘管 SAE 前景廣闊,但仍面臨一些挑戰,如:語義解釋仍不穩定;特徵字典可能不完整;重構誤差不可忽視;訓練計算成本較高。同時也展望了未來可能的突破點,包括跨模態擴展、自動解釋生成、架構輕量化等。


結語:從 “看得懂” 到 “改得動”


在未來,解釋型 AI 系統不能只滿足於可視化 attention 或 saliency map,而是要具備結構化理解和可操作性。SAE 提供了一個極具潛力的路徑 —— 不僅讓我們看到模型 “在想什麼”,還讓我們有能力去 “改它在想什麼”。


我們希望這篇綜述能為廣大研究者提供一個系統、全面、易於參考的知識框架。如果您對大模型可解釋性、AI 透明性或模型操控感興趣,這將是一篇值得收藏的文章。

科技分類資訊推薦

100%增長,京東618背後的變與不變 - 天天要聞

100%增長,京東618背後的變與不變

變化,或許是今年京東618大促,給市場留下的最深刻印象。就在618最後28小時開啟前,京東集團創始人、董事局主席劉強東談及了市場對於京東做外賣、大舉拓展酒旅業務的關切。他表示,京東做的一切都是圍繞着三個字:供應鏈。比如做外賣、做酒旅,都是為背後的供應鏈做鋪墊。這也是京東第一次對外確認了進軍酒旅行業的消息。這...
AI編程工具「9邊形戰士」上新:百度文心快碼AI IDE上線 - 天天要聞

AI編程工具「9邊形戰士」上新:百度文心快碼AI IDE上線

【TechWeb】6月23日消息,百度AI開放日上,百度智能代碼助手文心快碼迎來重大突破。百度副總裁陳洋發布了文心快碼獨立AI原生開發環境工具——Comate AI IDE。這是行業首個多模態、多智能體協同的AI IDE,首創設計稿一鍵轉代碼,模型已接入文心4.0 X1 Turbo,開箱即用,為國內企業和開發者打造高效、智能、安全可靠的AI IDE...
哪些行為會被共享單車企業拉黑? - 天天要聞

哪些行為會被共享單車企業拉黑?

近日,北京市交通委發布2024年共享單車的運營監管情況,並公示了過去一年因違停行為被列入限制騎行黑名單的人數,共有1105人被納入三家單車企業聯合限制騎行名單。哪些行為會導致騎行者進入黑名單?
17家大型車企60天賬期承諾刷屏,汽車業打響“反卷”又一槍,哪個企業先扛不住? - 天天要聞

17家大型車企60天賬期承諾刷屏,汽車業打響“反卷”又一槍,哪個企業先扛不住?

6月10日,廣汽集團率先宣布供應商付款賬期縮短至60天以內的承諾。官方在承諾中指出,供應鏈體系的健康發展是保障產品高安全、高品質的基礎。為此,廣汽集團將一如既往,堅持以不超過60天的供應商賬期,保障供應鏈資金高效周轉,攜手上下游夥伴,共同促進行業高質量發展。
國風樂園掀起小車革命,奇瑞多米攜小車家族重構5萬級市場 - 天天要聞

國風樂園掀起小車革命,奇瑞多米攜小車家族重構5萬級市場

2025年6月10日,蕪湖方特東方神話樂園化身國風潮玩聖地。千塊數控彩磚拼成巨幅“快樂奇景圖”,在飛檐斗拱的映襯下,奇瑞以一場顛覆傳統的“小車潮改節暨多米上市發布會”,宣告技術普惠時代的小車價值革命正式啟航。三款明星車型——真5座純電MINI SUV多米、小螞
國內AI液冷龍頭優劣勢對比 - 天天要聞

國內AI液冷龍頭優劣勢對比

國內AI服務器液冷市場主要由服務器廠商、專業溫控解決方案商及核心部件供應商三類企業主導,其技術路線、產品特性和客戶群體各有側重。以下是主要廠商的詳細分析: 一、市場領導者:服務器廠商1. 浪潮信息技術路線:全棧布局冷板式+浸沒式液冷,主打冷
Wolfspeed即將申請破產,瑞薩電子認列2500億日元損失 - 天天要聞

Wolfspeed即將申請破產,瑞薩電子認列2500億日元損失

由於碳化硅(SiC)材料大廠Wolfspeed 可能將在近期內申請破產,6月23日,曾與Wolfspeed達成碳化硅供應協議的瑞薩電子,已與 Wolfspeed及其主要債權人簽署重組支持協議(以下簡稱“重組支持協議”),以對 Wolfspeed 進行財務重組。瑞薩預計將認列2500億日元損失。早在2023年7月初,瑞薩電子宣布與Wolfspeed簽訂了碳化硅