
人類說著幾千種語言,但它們背後可能共享同一套演化邏輯。
來自復旦大學、哈佛大學和石溪大學的研究團隊,利用人工智能詞嵌入技術和統計方法,系統分析了22種語言數百年來的詞彙演變數據,發現了一套跨越語言邊界、普遍存在的數學規律。
這項研究發表於《英國皇家學會學報B輯:生物科學》,提供了一個此前從未有過的定量視角,來理解人類語言和文化是如何隨時間推移而演化的。
研究的核心工具是詞嵌入,一種將詞彙轉化為高維數學空間中坐標點的機器學習方法。在這個300維的語義空間里,意思相近的詞被表示為相鄰的點,詞義差距越大,點與點之間的距離就越遠。通過這種方式,研究人員得以把語言變成可以被數學精確測量和比較的對象。
詞語也有"扎堆"的本能
研究團隊首先發現的,是一個在所有22種語言中高度一致的空間分佈特徵:高頻詞總是傾向於聚集在語義空間的特定區域,與其他高頻詞為鄰,形成所謂"流行"區域,而低頻詞則散布在邊緣地帶。
這個模式乍看不算意外,但它的一致性之強,橫跨英語、中文、阿拉伯語、西班牙語等語系差異極大的語言,才是真正值得注意的地方。

高頻詞往往與其他高頻詞更接近,從而界定語義上流行的區域。左圖:直觀的卡通圖。右圖:使用 Word2vec 和 wordfreq 數據集計算的散點圖。圖片來源:Guo 等人(Proceedings B,2026)。
更有意思的發現在於詞彙的動態演化規律。研究人員觀察到,新詞的出現並非孤立事件,它們往往成群湧現,新詞總是伴隨着其他新詞一起出現,在語義空間中形成新的聚集區域。論文資深作者、石溪大學教授史蒂文·斯基納指出,這種模式與生物進化中的"間斷平衡"現象頗為相似,在某些特定時期,形態或基因會發生集中的快速變化,而不是勻速緩慢地改變。
語言的演化,或許和生命的演化共享着某種底層的動力學結構。
研究團隊還發現,詞彙在語義空間中的層級組織方式,在所有被分析的語言中呈現出大致相同的結構,語義相關的詞聚成小簇,小簇再嵌套進更大的語義範疇,形成一種自相似的層級體系。這種結構的普遍性,暗示它可能不是某種特定文化的產物,而是人類認知和語言組織方式的某種深層共性。
一個出人意料的簡單模型,卻解釋了很多
真正令研究團隊興奮的,是他們最終構建出的數學模型。
此前語言學研究中早已確立的齊普夫定律,揭示了詞頻分佈的冪律規律,即極少數詞被極頻繁地使用,絕大多數詞則使用極少。但這只是在單一維度上描述了詞頻的統計分佈,並沒有觸及詞義在多維語義空間中的演化邏輯。
這項新研究將一個被稱為"累積優勢"的經典隨機過程,與一種名為馮·米塞斯-費舍爾分佈的概率模型結合起來,構建出一個能夠在300維語義空間和歷史時間維度上同時重現上述所有觀測結果的生成模型。累積優勢的邏輯不難理解,已經流行的詞會吸引更多使用,進而變得更加流行,這與社交網絡中的馬太效應、城市人口的集聚規律本質上如出一轍。
論文共同第一作者謝爾蓋·韋爾斯秋克表示,他們結合了可以追溯至中世紀的歷史語言數據與現代自然語言處理技術,同時借用了定量地理學和生態學中常用的空間統計工具,讓這項研究橫跨了相當寬闊的學科邊界。
值得一提的是,生態學中著名的泰勒定律,最初用於描述生物種群密度的均值與方差之間的冪律關係,在這項研究中被發現同樣適用於詞彙的語義分佈,這是該定律首次在語言學數據中得到驗證,也進一步支持了語言演化與其他複雜系統演化之間存在深層共性的猜想。
這項研究的意義,不僅僅在於語言學本身。人類文化的其他維度,從音樂風格到科學概念的傳播,是否也遵循類似的數學邏輯,目前仍是開放的問題。斯基納表示,他們對利用AI生成的詞嵌入作為基礎研究工具仍充滿熱情,目標是理解文化演進中的歷史進程,而不只是用來構建技術產品。
七年合作,數百年語言數據,二十二種語言,最終收斂到一個出人意料簡潔的數學框架,這本身就是一件值得細細品味的事。