
北京大學研究團隊創新性地開發出可同時應用於人腦和大語言模型的探針技術,首次在相同實驗框架下直接比較了人類大腦與人工智慧系統的句法處理機制。這項發表在人工智慧頂級會議NeurIPS 2025上的研究揭示,儘管人腦和大模型在句法層級結構加工上存在顯著相似性,但不同智能體可能通過各自獨特的路徑實現語言理解能力,挑戰了人工智慧必須模仿人類認知的傳統觀念。
方方教授與王茜副研究員領導的跨學科團隊聯合浙江大學、北京語言大學等機構,提出了"層級化頻率標記探針"技術,成功構建了人腦神經活動與機器學習模型內部表徵的對比分析平台。通過這一創新方法,研究人員發現了語言智能中可能存在的普遍性原理,同時也觀察到不同智能系統在實現相似功能時採用的策略差異。
研究結果表明,語言理解的複雜性遠超此前認知,人工智慧的發展路徑可能比預想的更加多元化。這一發現不僅為理解大語言模型的工作機制提供了新視角,也為人工智慧的未來發展方向提出了重要啟示。
跨系統分析框架的技術突破

傳統的人工智慧可解釋性研究往往局限於模型內部分析,難以建立與生物智能系統的直接對比。北京大學團隊基於先前在神經科學領域建立的層級化頻率標記方法,創造性地將其擴展到人工神經網路分析中,實現了生物神經系統與人工神經網路在統一計算框架下的比較研究。
在人腦實驗部分,研究團隊利用顱內立體腦電技術記錄受試者在聆聽以4Hz節奏呈現的句子時的神經活動。這種高精度的腦信號採集方法能夠捕捉到大腦處理語言時的細微神經振蕩模式。同時,在模型分析中,團隊為GPT、Llama、Gemma和GLM等多種主流大語言模型構建了虛擬時間軸,將模型的內部激活信號轉換到頻域進行分析。

圖1. HFTP實驗範式與三種不同句法層級編碼計算單元定義
這種並行分析方法的創新之處在於,它能夠在相同的測量維度上比較完全不同的信息處理系統。通過將人腦的神經振蕩和模型的激活模式都映射到頻率空間,研究人員建立了兩個系統之間可比較的"共同語言"。
實驗結果顯示,無論是人腦還是大語言模型,都在1Hz和2Hz頻段表現出穩定的特徵響應,分別對應句子級別和短語級別的句法處理。這種跨系統的頻率對應關係提供了語言層級結構處理存在普遍性計算原理的有力證據。
智能系統中的功能模塊化現象
更深入的分析揭示了人腦和人工神經網路中都存在功能特化的處理單元。研究團隊識別出三類不同的功能單元:專門處理句子級信息的單元、專門處理短語級信息的單元,以及同時參與兩個層級處理的"共享單元"。

圖2. A. GPT-2在第六層的神經元所產生的層次化句法加工模式; B. 人腦顳中回的層次化句法加工模式
這種功能模塊化的發現具有重要的理論意義。它表明無論是經過數百萬年進化塑造的生物神經網路,還是通過機器學習訓練的人工神經網路,都傾向於發展出專門化的功能模塊來處理不同層次的語言結構。這種收斂性暗示了信息處理效率優化的普遍性約束。
在人腦中,這些功能單元主要分布在顳中回等與語言處理密切相關的腦區。而在大語言模型中,類似的功能分化現象出現在模型的中間層,特別是在GPT-2的第六層觀察到了與人腦顳中回高度相似的層級化句法加工模式。
值得注意的是,這種跨系統的功能對應關係實現了人腦神經表徵與模型內部表徵在頻譜空間的對齊。這種"表徵對齊"為理解不同智能系統如何處理相同信息提供了定量化的比較框架。
模型規模與類人性的複雜關係

圖3. 運用HFTP技術的表徵對齊工作流程
研究中一個出人意料的發現是,模型規模的增大並不總是帶來與人腦更高的相似性。通過對不同規模和版本的模型進行比較,研究團隊發現了一個反直覺的現象:某些較新或較大的模型與人腦的對齊程度反而低於其前代版本。
例如,Gemma 2在句法處理方面與人腦的相似性顯著高於第一代Gemma模型,顯示出技術迭代帶來的正面效應。然而,Llama 3.1的表現卻不如Llama 2,表明模型的優化方向可能偏離了與人類認知機制的一致性。
這一發現挑戰了人工智慧發展中的一個重要假設:即更大更強的模型必然會更接近人類的認知方式。研究結果表明,模型性能的提升可能通過多種不同的路徑實現,其中一些路徑可能遠離人類的認知模式。
表1. 不同大模型與人腦的句法對齊表現

Sm, b:模型-人腦相似性
這種現象反映了人工智慧系統在優化過程中可能探索出人類未曾使用的信息處理策略。從進化的角度來看,這並不令人意外。人類大腦的結構和功能受到了生物進化歷程中諸多約束的限制,而人工神經網路在優化過程中面臨的約束條件完全不同,因此可能發現通向同樣目標的不同路徑。
研究團隊的量化分析顯示,不同模型與人腦的句法對齊表現存在顯著差異,這種差異不僅體現在對齊程度上,也體現在對齊的具體模式上。這表明即使在處理相同的語言任務時,不同的智能系統也可能採用根本不同的計算策略。
這一發現對人工智慧的發展具有重要啟示。它暗示研究人員在追求模型性能提升的同時,需要更加關注模型的內在機制,特別是在需要與人類協作或理解人類行為的應用場景中。
從更廣闊的視角來看,這項研究提出了關於智能本質的深刻問題。如果不同的系統能夠通過不同的機制實現相似的功能表現,那麼智能可能不是一個單一的、具有固定實現方式的概念,而是一個可以通過多種路徑實現的功能性目標。
這種多路徑智能假說為人工智慧的未來發展開闢了新的思考空間。它意味著我們不必局限於模仿人類認知的單一路徑,而可以探索多種可能的智能實現方式,每種方式都可能在特定的應用領域具有獨特的優勢。
HFTP技術框架的建立為這種跨系統比較研究提供了強有力的工具。未來的研究可以利用這一框架探索更多認知功能的跨系統比較,為理解智能的本質和多樣性提供更豐富的實證基礎。