
人类说着几千种语言,但它们背后可能共享同一套演化逻辑。
来自复旦大学、哈佛大学和石溪大学的研究团队,利用人工智能词嵌入技术和统计方法,系统分析了22种语言数百年来的词汇演变数据,发现了一套跨越语言边界、普遍存在的数学规律。
这项研究发表于《英国皇家学会学报B辑:生物科学》,提供了一个此前从未有过的定量视角,来理解人类语言和文化是如何随时间推移而演化的。
研究的核心工具是词嵌入,一种将词汇转化为高维数学空间中坐标点的机器学习方法。在这个300维的语义空间里,意思相近的词被表示为相邻的点,词义差距越大,点与点之间的距离就越远。通过这种方式,研究人员得以把语言变成可以被数学精确测量和比较的对象。
词语也有"扎堆"的本能
研究团队首先发现的,是一个在所有22种语言中高度一致的空间分布特征:高频词总是倾向于聚集在语义空间的特定区域,与其他高频词为邻,形成所谓"流行"区域,而低频词则散布在边缘地带。
这个模式乍看不算意外,但它的一致性之强,横跨英语、中文、阿拉伯语、西班牙语等语系差异极大的语言,才是真正值得注意的地方。

高频词往往与其他高频词更接近,从而界定语义上流行的区域。左图:直观的卡通图。右图:使用 Word2vec 和 wordfreq 数据集计算的散点图。图片来源:Guo 等人(Proceedings B,2026)。
更有意思的发现在于词汇的动态演化规律。研究人员观察到,新词的出现并非孤立事件,它们往往成群涌现,新词总是伴随着其他新词一起出现,在语义空间中形成新的聚集区域。论文资深作者、石溪大学教授史蒂文·斯基纳指出,这种模式与生物进化中的"间断平衡"现象颇为相似,在某些特定时期,形态或基因会发生集中的快速变化,而不是匀速缓慢地改变。
语言的演化,或许和生命的演化共享着某种底层的动力学结构。
研究团队还发现,词汇在语义空间中的层级组织方式,在所有被分析的语言中呈现出大致相同的结构,语义相关的词聚成小簇,小簇再嵌套进更大的语义范畴,形成一种自相似的层级体系。这种结构的普遍性,暗示它可能不是某种特定文化的产物,而是人类认知和语言组织方式的某种深层共性。
一个出人意料的简单模型,却解释了很多
真正令研究团队兴奋的,是他们最终构建出的数学模型。
此前语言学研究中早已确立的齐普夫定律,揭示了词频分布的幂律规律,即极少数词被极频繁地使用,绝大多数词则使用极少。但这只是在单一维度上描述了词频的统计分布,并没有触及词义在多维语义空间中的演化逻辑。
这项新研究将一个被称为"累积优势"的经典随机过程,与一种名为冯·米塞斯-费舍尔分布的概率模型结合起来,构建出一个能够在300维语义空间和历史时间维度上同时重现上述所有观测结果的生成模型。累积优势的逻辑不难理解,已经流行的词会吸引更多使用,进而变得更加流行,这与社交网络中的马太效应、城市人口的集聚规律本质上如出一辙。
论文共同第一作者谢尔盖·韦尔斯秋克表示,他们结合了可以追溯至中世纪的历史语言数据与现代自然语言处理技术,同时借用了定量地理学和生态学中常用的空间统计工具,让这项研究横跨了相当宽阔的学科边界。
值得一提的是,生态学中著名的泰勒定律,最初用于描述生物种群密度的均值与方差之间的幂律关系,在这项研究中被发现同样适用于词汇的语义分布,这是该定律首次在语言学数据中得到验证,也进一步支持了语言演化与其他复杂系统演化之间存在深层共性的猜想。
这项研究的意义,不仅仅在于语言学本身。人类文化的其他维度,从音乐风格到科学概念的传播,是否也遵循类似的数学逻辑,目前仍是开放的问题。斯基纳表示,他们对利用AI生成的词嵌入作为基础研究工具仍充满热情,目标是理解文化演进中的历史进程,而不只是用来构建技术产品。
七年合作,数百年语言数据,二十二种语言,最终收敛到一个出人意料简洁的数学框架,这本身就是一件值得细细品味的事。