語言怎麼演化?AI掃描22種語言後,找到了一條隱藏的數學定律

2026年04月27日20:03:14 科技 1064

語言怎麼演化?AI掃描22種語言後,找到了一條隱藏的數學定律 - 天天要聞

人類說著幾千種語言,但它們背後可能共享同一套演化邏輯。

來自復旦大學、哈佛大學和石溪大學的研究團隊,利用人工智能詞嵌入技術和統計方法,系統分析了22種語言數百年來的詞彙演變數據,發現了一套跨越語言邊界、普遍存在的數學規律。

這項研究發表於《英國皇家學會學報B輯:生物科學》,提供了一個此前從未有過的定量視角,來理解人類語言和文化是如何隨時間推移而演化的。

研究的核心工具是詞嵌入,一種將詞彙轉化為高維數學空間中坐標點的機器學習方法。在這個300維的語義空間里,意思相近的詞被表示為相鄰的點,詞義差距越大,點與點之間的距離就越遠。通過這種方式,研究人員得以把語言變成可以被數學精確測量和比較的對象。

詞語也有"扎堆"的本能

研究團隊首先發現的,是一個在所有22種語言中高度一致的空間分佈特徵:高頻詞總是傾向於聚集在語義空間的特定區域,與其他高頻詞為鄰,形成所謂"流行"區域,而低頻詞則散布在邊緣地帶。

這個模式乍看不算意外,但它的一致性之強,橫跨英語、中文、阿拉伯語、西班牙語等語系差異極大的語言,才是真正值得注意的地方。

語言怎麼演化?AI掃描22種語言後,找到了一條隱藏的數學定律 - 天天要聞

高頻詞往往與其他高頻詞更接近,從而界定語義上流行的區域。左圖:直觀的卡通圖。右圖:使用 Word2vec 和 wordfreq 數據集計算的散點圖。圖片來源:Guo 等人(Proceedings B,2026)。

更有意思的發現在於詞彙的動態演化規律。研究人員觀察到,新詞的出現並非孤立事件,它們往往成群湧現,新詞總是伴隨着其他新詞一起出現,在語義空間中形成新的聚集區域。論文資深作者、石溪大學教授史蒂文·斯基納指出,這種模式與生物進化中的"間斷平衡"現象頗為相似,在某些特定時期,形態或基因會發生集中的快速變化,而不是勻速緩慢地改變。

語言的演化,或許和生命的演化共享着某種底層的動力學結構。

研究團隊還發現,詞彙在語義空間中的層級組織方式,在所有被分析的語言中呈現出大致相同的結構,語義相關的詞聚成小簇,小簇再嵌套進更大的語義範疇,形成一種自相似的層級體系。這種結構的普遍性,暗示它可能不是某種特定文化的產物,而是人類認知和語言組織方式的某種深層共性。

一個出人意料的簡單模型,卻解釋了很多

真正令研究團隊興奮的,是他們最終構建出的數學模型。

此前語言學研究中早已確立的齊普夫定律,揭示了詞頻分佈的冪律規律,即極少數詞被極頻繁地使用,絕大多數詞則使用極少。但這只是在單一維度上描述了詞頻的統計分佈,並沒有觸及詞義在多維語義空間中的演化邏輯。

這項新研究將一個被稱為"累積優勢"的經典隨機過程,與一種名為馮·米塞斯-費舍爾分佈的概率模型結合起來,構建出一個能夠在300維語義空間和歷史時間維度上同時重現上述所有觀測結果的生成模型。累積優勢的邏輯不難理解,已經流行的詞會吸引更多使用,進而變得更加流行,這與社交網絡中的馬太效應、城市人口的集聚規律本質上如出一轍。

論文共同第一作者謝爾蓋·韋爾斯秋克表示,他們結合了可以追溯至中世紀的歷史語言數據與現代自然語言處理技術,同時借用了定量地理學和生態學中常用的空間統計工具,讓這項研究橫跨了相當寬闊的學科邊界。

值得一提的是,生態學中著名的泰勒定律,最初用於描述生物種群密度的均值與方差之間的冪律關係,在這項研究中被發現同樣適用於詞彙的語義分佈,這是該定律首次在語言學數據中得到驗證,也進一步支持了語言演化與其他複雜系統演化之間存在深層共性的猜想。

這項研究的意義,不僅僅在於語言學本身。人類文化的其他維度,從音樂風格到科學概念的傳播,是否也遵循類似的數學邏輯,目前仍是開放的問題。斯基納表示,他們對利用AI生成的詞嵌入作為基礎研究工具仍充滿熱情,目標是理解文化演進中的歷史進程,而不只是用來構建技術產品。

七年合作,數百年語言數據,二十二種語言,最終收斂到一個出人意料簡潔的數學框架,這本身就是一件值得細細品味的事。

科技分類資訊推薦

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV,第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊,以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級,兼顧商務體面與家庭舒適,為西北高端用戶帶來一站式全能出行解決方案。
採購禁入!科華數據材料造假被拒門外 - 天天要聞

採購禁入!科華數據材料造假被拒門外

本報(chinatimes.net.cn)記者胡雅文 北京報道這家趕上AI算力風口的公司,因投標材料造假,被相關採購方列入禁入名單兩年,其此前提出的複議申請也被正式駁回。相關採購平台近日發佈公告,明確駁回科華數據股份有限公司(下稱「科華數據」,002335.SZ)此前提交的複議申請。早在一年前,科華數據已被認定在「信息通信樞紐...
快評樂道L80:15萬元級買大五座,這波值得沖? - 天天要聞

快評樂道L80:15萬元級買大五座,這波值得沖?

日前,樂道L80正式發佈並開啟預售,其整車購買預售價為24.58萬元起,租電購買預售價則低至15.98萬元起。面對大型SUV市場「細分再細分」之競爭趨勢,這款樂道年度重磅新車都有哪些優勢?又能否成為「大五座SUV革新之作」?下面,圈哥就帶大家全方位感受。
成都直擊凱威德:純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德:純電全尺寸SUV的張揚與大氣

4月22日,凱迪拉克以奧斯卡級盛典規格,將上海保利大劇院點亮為璀璨舞台,在品牌代言人倪妮與全場嘉賓的共同見證下,凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置,官方售價區間為46.88萬-50.88萬元。