大模型到底是怎麼「思考」的？第一篇系統性綜述SAE的文章來了

2025年06月23日15:02:05 科技 1370

作者介紹:本篇文章的作者團隊來自美國四所知名高校：西北大學、喬治亞大學、新澤西理工學院和喬治梅森大學。第一作者束東與共同第一作者吳烜聖、趙海燕分別是上述高校的博士生，長期致力於大語言模型的可解釋性研究，致力於揭示其內部機制與「思維」過程。通訊作者為新澤西理工學院的杜夢楠教授。

在 ChatGPT 等大語言模型（LLMs）席捲全球的今天，越來越多的研究者意識到：我們需要的不只是「會說話」的 LLM，更是「能解釋」的 LLM。我們想知道，這些龐大的模型在接收輸入之後，到底是怎麼「思考」的？

為此，一種叫做 Sparse Autoencoder（簡稱 SAE） 的新興技術正迅速崛起，成為當前最熱門的 mechanistic interpretability（機制可解釋性）路線之一。最近，我們撰寫並發布了第一篇系統性的 SAE 綜述文章，對該領域的技術、演化和未來挑戰做了全面梳理，供關注大模型透明性、可控性和解釋性的研究者參考。

論文題目：
A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models
論文地址：
https://arxiv.org/pdf/2503.05613

（圖 1）：該圖展示了 SAE 的基本框架。

什麼是 Sparse Autoencoder？

簡單來說，LLM 內部的許多神經元可能是「多義的」，意思是它們同時處理好幾個不相關的信息。在處理輸入時，LLM 會在內部生成一段高維向量表示，這種表示往往難以直接理解。然後，如果我們將它輸入一個訓練好的 Sparse Autoencoder，它會解構出若干稀疏激活的「特徵單元」（feature），而每一個feature，往往都能被解釋為一段可讀的自然語言概念。

舉個例子：假設某個特徵（feature 1）代表「由鋼鐵建造的建築」，另一個特徵（feature 2）代表「關於歷史的問題」。當 LLM 接收到輸入「這座跨海大橋真壯觀」時，SAE 會激活 feature 1，而不會激活 feature 2。這說明模型「意識到」橋是一種鋼結構建築，而並未將其理解為歷史類話題。

而所有被激活的特徵就像拼圖碎片，可以拼接還原出原始的隱藏表示（representation），讓我們得以窺見模型內部的「思維軌跡」。這也正是我們理解大模型內部機制的重要一步。

（圖 2）：該圖展示了 SAE 的發展歷史。

為什麼大家都在研究 SAE？

過去主流的可解釋方法多依賴於可視化、梯度分析、注意力權重等「間接信號」，這些方法雖然直觀，但往往缺乏結構性和可控性。而 SAE 的獨特優勢在於：它提供了一種結構化、可操作、且具語義解釋力的全新視角。它能夠將模型內部的黑盒表示分解為一組稀疏、具備明確語義的激活特徵（features）。

更重要的是，SAE 不只是可解釋性工具，更可以用於控制模型怎麼想、發現模型的問題、提升模型的安全性等一系列實際應用。當前，SAE 已被廣泛應用於多個關鍵任務：

概念探測（Concept Discovery）：自動從模型中挖掘具有語義意義的特徵，如時間感知、情緒傾向、語法結構等；
模型操控（Steering）：通過激活或抑制特定特徵，定向引導模型輸出，實現更精細的行為控制；
異常檢測與安全分析：識別模型中潛藏的高風險特徵單元，幫助發現潛在的偏見、幻覺或安全隱患。

這種「解釋 + 操控」的結合，也正是 SAE 能在當前 LLM 可解釋性研究中脫穎而出的關鍵所在。目前包括 OpenAI、Anthropic、Google DeepMind 等機構都在推進 SAE 相關研究與開源項目。

（圖 3）：該圖演示了如何通過 SAE 操控模型輸出，實現對大語言模型行為的定向引導。

本文有哪些內容？

作為該領域的首篇系統綜述，我們的工作涵蓋以下幾個核心部分：

1. Technical Framework of SAEs（SAE 的技術框架）

本部分系統介紹了 SAE 的基本結構及其訓練流程，它是一種特殊的神經網路。具體包括：

編碼器：把 LLM 的高維向量表示「分解」成一個更高維並且稀疏的特徵向量。
解碼器：根據這個稀疏特徵向量，嘗試「重建」回原始的 LLM 信息。
稀疏性損失函數：確保重建得足夠準確，並且特徵足夠稀疏。

同時我們總結了現有的常見架構變體與改進策略。例如解決收縮偏差（shrinkage bias）的 Gated SAE，通過直接選擇 Top-K 個激活來強制稀疏性的 TopK SAE，等等。

2. Explainability Analysis of SAEs（SAE 可解釋性分析）

總結當前主流的解釋方法，旨在將 SAE 學習到的稀疏特徵用自然語言進行描述，從而把模型的「抽象思維」轉化為人類可理解的見解。這些方法主要分為兩大類：

輸入驅動：尋找那些能最大程度激活某個特徵的文本片段。通過總結這些文本，我們就能大致推斷出這個特徵代表什麼意思（如 MaxAct、PruningMaxAct）。
輸出驅動：將特徵與 LLM 生成的詞語聯繫起來。例如，一個特徵激活時，LLM 最可能輸出哪些詞，這些詞就能幫助我們理解這個特徵的含義（如 VocabProj、Mutual Info）。

3. Evaluation Metrics and Methods（評估指標與方法）

評估 SAE 就像評估一個工具：既要看它內部構造是否合理（結構評估），也要看它實際用起來有沒有效果（功能評估）。

構性評估：檢查 SAE 是否按設計工作，比如重建的準確度如何，稀疏性是否達到要求（如重構精度與稀疏度）。
功能評估：評估 SAE 能否幫助我們更好地理解 LLM，以及它學習到的特徵是否穩定和通用（如可解釋性、健壯性與泛化能力）。

4. Applications in Large Language Models（在大語言模型中的應用）

SAE 不僅能幫助我們理解 LLM，還能實際操作它們。我們展示了 SAE 在模型操控、行為分析、拒答檢測、幻覺控制、情緒操控等方面的實際應用案例與前沿成果。

5. 與 Probing 方法的對比分析

除了 SAE，還有一種叫做「Probing（探針）」的方法也被用於理解 LLM。本文比較了 SAE 與傳統的 Probing 技術在模型操縱和特徵提取等方面的優勢與不足。儘管 Probing 方法在某些方面表現出色，但 SAE 作為一種新興的機制可解釋性方法，具有其獨特的潛力。然而，研究也指出，在某些複雜場景（如數據稀缺、類別不平衡等）下，SAE 在提供一致優勢方面仍有很長的路要走。

6. 當前研究挑戰與未來方向

儘管 SAE 前景廣闊，但仍面臨一些挑戰，如：語義解釋仍不穩定；特徵字典可能不完整；重構誤差不可忽視；訓練計算成本較高。同時也展望了未來可能的突破點，包括跨模態擴展、自動解釋生成、架構輕量化等。

結語：從「看得懂」到「改得動」

在未來，解釋型 AI 系統不能只滿足於可視化 attention 或 saliency map，而是要具備結構化理解和可操作性。SAE 提供了一個極具潛力的路徑 —— 不僅讓我們看到模型「在想什麼」，還讓我們有能力去「改它在想什麼」。

我們希望這篇綜述能為廣大研究者提供一個系統、全面、易於參考的知識框架。如果您對大模型可解釋性、AI 透明性或模型操控感興趣，這將是一篇值得收藏的文章。