人类智能与人工智能的根本差别与相对优劣——兼论双智社会的最大陷阱

2025年07月04日20:30:16 科学 4754

作者简介

陈小平，中国科学技术大学计算机学院教授，广东省科学院人工智能首席科学家，中国人工智能学会会士、人工智能伦理与治理工委会主任。

说明：本文根据作者2025年6月26日在广东外语外贸大学著名教授讲坛上的演讲内容整理加工而成，为网络首发。讲坛发言原标题为《跳出人工智能时代个人成长和职业发展的最大陷阱》。

摘要

对最近一次图灵测试的实验结果进行分析和解读，提出图灵测试的分级，并肯定人工智能已经通过了初级图灵测试。结合人工智能各方面的进展，认为人类智能和机器智能双足鼎立的“双智社会”正在到来。通过对大模型科学原理和深度测试的研究，指出人工智能取得了两项原理性突破，同时也是两项原理性局限，即实例性和弱共识性，从而为双智社会的科学依据——机器智能与人类智能的根本区别，提供新证据。对人类智能与机器智能的相对优劣做初步分析，提出在双智社会中人类必须弘扬人的独特性，驾驭机器而不是甘当机器的附庸。以程序员职业和文员职业为例，论证“只要会用ai工具就不会被淘汰”是现阶段双智社会的最大职业陷阱。

正文

关于“智能”，普遍流行着“单智假设”，即认为世界上只有一种智能——人类智能，而人工智能本质上是机器载体上的人类智能。但人工智能奠基人图灵却认为，机器智能与人类智能的工作原理可以有所不同，而表现或功能是相同或相似的，这就是图灵的机器智能观。

70多年来，图灵的机器智能观在人工智能研究和应用中获得了越来越多、越来越强的支持证据。近年来，未经专业训练的普通大众可以直接操纵生成式人工智能，而低成本加开源使得大量机构和很多个人可以拥有自己的专有ai系统，从而极大地加快了人工智能“大众化”的步伐。同时，ai系统的性能显著提升，在一些领域和任务中的表现已经超过了人类，甚至获得了2024诺贝尔科学奖。人类智能和机器智能双足鼎立的格局正在快速形成，“双智社会”的晨钟已经敲响，未来之旅充满了良机与陷阱。

一、图灵测试及其最新实验介绍与解读

人工智能奠基人、创始人艾伦·图灵于1950年提出“模仿游戏” [1]，被后人称为图灵测试。其大意是：如果裁判(人)通过问答不能正确分辨人和机器，则认为机器“有”智能。图1是图灵测试的图示，其中机器和人分别在两个房间里，房间外的人类裁判向两个房间提出相同的问题，并根据回答分辨哪个房间里是人、哪个房间里是机器。图灵预期，到2000年前后，机器将能够通过5分钟的图灵测试。

图1 图灵测试的图示（图片来自网络）

对图灵测试的主要质疑是：仅仅根据机器与人外部表现的不可分辨，就能断定机器拥有人类的智能吗？普遍认为答案是否定的，有人提出了著名的“中文屋论证”加以反驳。这些质疑的出发点是单智假设，即假设世界上只有一种智能，就是人类智能，所以人工智能的工作原理必须与人类智能相同。

1955年麦卡锡等人提出artificial intelligence这个词。普遍认为，这个词指的就是用人工方法模拟人类智能。可是麦卡锡本人在其个人主页上明确否定了这种解读，并指出：artificial intelligence是“研究世界对智能提出的问题，而不是研究人或动物”。这实际上否定了单智假设。

其实图灵早在1948年的内部报告[2]中就预先解答了这一疑问。该报告隐含着一个革命性的思想：机器智能的工作原理与人类智能的工作原理可以相同，也可以不同。因此，不必考虑机器智能与人类智能的原理是否相同；换言之，不必考虑机器智能与人类智能是不是同一种智能，只需考察它们的表现是否相同或相似，能否完成相同或相似的功能。图灵测试正是在此基础上提出，用来验证图灵的机器智能观的一种科学实验。

2025年3月发布的一份报告[3]称，大模型“首次通过了图灵测试”。报告的主要实验结果如下。第一，带“人设提示”的大模型gpt-4.5的测试胜率为73%（即有73%的人类裁判将大模型识别为人），带“人设提示”的大模型llama-3.1的胜率为56%。也就是说，大部分人类裁判将这两个大模型误识别为人。第二，当这两个大模型不带人设提示时，其胜率仅为36%和38%，即大部分人类裁判能够正确识别。第三，对不带人设提示的大模型gpt-4o和1960年代的聊天ai程序eliza也进行了图灵测试，它们的胜率分别为23%和21%，其中eliza是基于规则的ai。可见人设提示对实验结果具有决定性影响。

实验采用的人设提示包含1244个英文单词，要求大模型模仿内向、熟悉网络文化的年轻人，并在测试之前将提示输入大模型。提示的第一部分是关于大模型应扮演何种角色(即“人设”)的指示，包括对其应使用的语气和语言风格的具体要求，包括故意犯小错误(如打字错误)。第二部分包含比赛规则的说明，其内容与呈现给参加测试的人类选手的参赛说明完全相同。第三部分提供了一些普遍有用的信息，比如关于测试的补充背景资料，以及模型训练数据截止之后发生的一些重大事件的说明等。

在我看来，图灵测试中人类裁判的识别技能有三种可能来源：日常经验(即日常生活、学习或工作中获得的经验)、专业训练(有关大模型的专业训练)、专门研究(有关大模型和人工智能的专门研究)。对应地，只依靠日常经验的裁判属于业余级，同时依靠日常经验和专业训练的裁判属于专业级，依靠全部三类技能的裁判属于专家级。

根据实验组织者的数据分析，本次实验中人类裁判主要依靠日常经验，极少依靠专业训练，完全没有使用来自专门研究的识别技巧。换言之，本次实验的裁判几乎都是业余级。他们最常用的提问技巧是：询问日常活动、情绪体验和个人细节，其准确性都较低。识别准确性最高的是询问奇怪少见的话题，但裁判很少使用(2.7%)。准确性第二高的是使用“越狱”技巧(来自专门训练)，实验中被使用得更少（见图2）。这些数据表明，本次实验中，人类裁判的识别策略基本上是无效的。

图2 测试数据（左：提问策略的使用频率；右：提问策略的平均准确性）

为了判断实验组织者的结论是否真的成立，即判断这次实验是否真的证实了大模型已经通过了图灵测试，首先要问：图灵心目中的图灵测试到底使用哪些识别技能？图灵在1950年的文章中给出了三个假想的测试例子，从而明确地展示了他自己采用的识别技能。在第三个例子（如表1所示）中，图灵假想机器写了一首14行诗，然后人类裁判提出了一系列问题，其中第一个问题涉及意向性语义替换。显然，这是一个深入研究机器智能的专家才可能提出的问题。这表明在图灵的心目中，是由研究机器智能的专家担任图灵测试的主裁的。

表1 图灵假想的一次图灵测试

基于上述事实和分析，我将图灵测试细分为三个等级：由业余级裁判主裁的初级图灵测试；由专业级裁判主裁的中级图灵测试；由专家级裁判主裁的高级图灵测试。另外，带人设提示的大模型也是大模型，所以下面的讨论不再区分带不带人设提示。

根据以上讨论，我认为这次图灵测试的实验结果表明，大模型通过了初级图灵测试，没有证据表明通过了中级或高级图灵测试。所以严格地说，大模型尚未通过图灵测试，因为图灵心目中的图灵测试是高级图灵测试。

但是，肯定大模型通过了初级图灵测试，仍然具有重大意义。这次实验的人类裁判是在校本科生和prolific平台工人（根据实验组织者的数据分析，前者的识别能力略强于后者），如果实验结果具有普遍性，那就意味着，不仅多数在校本科生不能正确识别大模型，而且只拥有日常经验的普通人都无法正确识别大模型。这意味着人工智能应用进入了大众化阶段，人类智能与机器智能的关系发生了根本性变化，一个前所未有的双智社会正浮出水面。

为了认清这一变化的真正含义与后果，有必要深入理解大模型背后的科学原理。

二、人工智能的原理性突破/局限

与以往的人工智能技术相比，大模型隐含着原理性突破，这些突破本身也是新的原理性局限。

大模型技术体系概貌如图3所示，主要包含三大块：预训练、后训练和激发。通过预训练生成基础大模型，所使用的训练语料包括教科书、专著、论文、专利说明书、文学作品等所有可用的电子文档（据估计，某些大模型的训练语料相当于互联网2/3文本量），并从中提取语元（即字词标点符号）之间的关联度（即统计关联的强度）。在回答用户提问时，大模型根据已经提取的关联度重复或重组语元，形成对提问的回答。

人们发现，大模型可以回答各种各样的问题，而且多数回答是正确的，这令很多人深感震撼，同时也带来多方面的强烈冲击。对教育系统而言，大模型对以书本知识传授为主的现行教育模式产生了巨大冲击——大模型从训练语料中获取的内容，似乎远远超过学生通过现行教育模式学到的东西，那么人工智能时代的教育将走向何方？普遍而言，最大恐慌在于：如果大模型可以像人一样地工作，能力却比人更强，而且越来越强，那么人类还能不能生存下去？本文的分析表明，情况并非如此，人类可以与人工智能长期共存。

图3 大模型技术体系概貌

回到大模型的技术体系，由于基础大模型往往答非所问，所以研究人员针对各种下游任务收集人类反馈数据或其他数据进行后训练，训练后回答问题的性能有明显提升。另外，通过激发可以让大模型对具体问题的回答变得更好。

需要补充说明的是，上述三大块只是纯大模型技术，而在实际的大模型研发中，还同时采用了大量传统技术，所以大模型通常并非仅由纯大模型技术构建而成。但现阶段人工智能的主要突破来源于纯大模型技术，所以我们聚焦于纯大模型技术的原理性分析。

我发现，预训练和激发的共同基础设施（或底层机制）是关联度预测。我把关联度预测形式化为类l_c理论[4, 5]，包含如下三条公理：

三条公理代表关联度预测在理论上的基本假设。例如，公理1中的是由n个语元（token）组成的序列，代表一次对话中已经出现的所有n个语元，称为语境（即上下文）；是中的一个语元；是任意一个语元。公理1表达如下理论假设：在任何语境下，其中一个语元与任意语元之间存在关联度，它的值在0到1之间。所有和它们的值通称为公理1的“实例”。公理2是对关联度进行推断（inference）的规则，公理3是决定推断结果的规则（在不同的应用中可能需要不同的公理3）。

对于大模型的预训练和激发而言，确定一个关联度的值的唯一有效的根据是训练数据。这里存在一个深层障碍：由于公理1中的n是没有上限的（下限为1），所以需要无穷多训练语料，才可以提取所有的值。但语料不可能是无穷的，结果大模型通过训练只能确定有穷多个的值，而其余无穷多个的值是“缺失的”；也就是说，并非所有的值都可以通过训练从语料中获得。这种情况称为类l_c的实例性。以往的人工智能、数学、逻辑和科学理论，都不是基于实例性的，所以实例性是大模型带来的一项原理性突破，同时也是一项原理性局限。

在大模型的实际应用中，为了回答用户提问，有时难免需要用到一些缺失的，怎么办？没有别的办法，只能利用算法为这些赋值，这种赋值是没有充分根据的，既没有数据根据也没有其他种类的充分根据，所以有可能产生错误。从这些错误赋值的出发，利用公理2和公理3进行推断，生成大模型的回答，这些回答往往也是错误的。这就是大模型无法避免犯错的根本原因。这些错误起源于对某些关联度的无根据赋值，导致大模型的相应回答给人无中生有的感觉，有时被比喻为大模型的“幻觉”。

在我的文章[4]发表以后，陆续出现了越来越多深度测试，揭示了大模型的各种奇异表现。到目前为止，已发现的大部分奇异表现都可以用类l_c理论加以解释，有些甚至是被类l_c理论提前预言的，并且迄今没有发现类l_c理论的反例。

下面介绍三个深度测试的例子。第一个例子是关于计数和逻辑否定的[6]。测试中向大模型提出如下问题：

how many times is p negated in the following formula:

∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ p?

即问命题变元p前面有多少个否定词∼。大模型回答28个，但实际上是27个。解答这个问题只需数一数p前面否定词∼的个数，大模型却数错了。这就导致大模型对逻辑否定的运算结果也是错误的。计数和逻辑否定分别是数学和逻辑的基本运算，如果这两个运算不对，其他运算的正确性也失去了保证（事实上，更多深度测试发现了大模型数学和逻辑运算的更多错误）。

多数大模型基于transformer算法。提出该算法的谷歌等研究机构于2024年7月对大模型的计数能力给出了正式回应[7]，其结论是：transformer算法无法解决不会计算的问题。但他们没有回答为什么不会计数，而类l_c理论可以解释不会计数的原因。

数学和逻辑中的一个抽象运算通常包含无穷多运算实例，它们对应于无穷多类l_c实例；仅当一个大模型拥有所有这些类l_c实例，才可以在任何情况下正确地执行这个抽象运算。依据类l_c理论的实例性，通过训练数据只能获得一部分有根据的类l_c实例，对于其他实例只能进行算法赋值，而算法赋值无法避免错误，所以大模型在抽象运算中无法避免出错。

由此可见，大模型的数学和逻辑能力是不完全的，而且更多的数据、更多的训练和更多的模型参数都无法改变这一原理性局限。这一缺陷对大模型其他方面的性能具有广泛的影响。

第二个例子涉及大模型对“概念”的掌握。很多人认为，大模型能够掌握人类的概念，甚至掌握得比人更好，2025年2月发布的一项深度测试[8]表明，情况并非如此。在这个测试中，训练18个大模型学会了一些数学题的求解，如：如果⌊n²/4⌋ - ⌊n/2⌋² =2，请找出满足条件的所有整数n。然后对这些数学题进行“扰动”（即小幅修改），如上面的题目修改为：如果⌊n²/9⌋-⌊n/3⌋² =2，请找出满足条件的最小整数n。用扰动后的数学题测试大模型，结果发现了奇异现象。例如，对于上面这个扰动后的题目，大模型竟然给出了两个解：10和13，直接违反了题目对“最小整数”的要求。这表明，大模型实际上并不掌握“满足条件的最小整数”这个概念。但是，大模型能够用文字正确地表述这个概念，这让很多人产生误解，以为凡是大模型正确表述的都是它所理解和掌握的，也是它在生成回答的过程中能够正确加以运用的。大量测试表明，事实并非如此。对大模型而言，“会说”≠”会做“。

这种现象也可以用类l_c理论加以解释。人类思维中的概念包含三种关联，一是概念表示之间的关联；二是概念表示与其所指的外部世界中具体对象之间的关联；三是概念表示与人的生命体验之间的关联，即概念所引发的生命体验或对既往生命体验的回忆。根据类l_c理论，大模型只掌握第一种关联的一部分（即统计关联），不掌握另外两种关联。例如在这个测试中，“满足条件的最小整数”就属于概念的第二种关联，这种关联确定了这个概念在当前语境下的唯一所指对象，即整数10。这个测试揭示了如下事实：大模型不掌握概念的第二种关联，所以大模型并不真正掌握人类思维中的概念，而是仅仅掌握某种局限于语元之间统计关联的“拟概念”。

概念连结形成判断，判断之间逻辑关系的运用是逻辑推理。大模型不掌握概念，也就谈不上判断和逻辑推理。大模型掌握的是类l_c理论所刻画的推断，这种推断可以在很多情形中模仿（imitate）逻辑推理，但基于不同的原理，所以大模型的推断与人的逻辑推理和其他智能行为之间暗藏着根本的不同。逻辑推理基于概念化框架上的概括性，而大模型的推断基于拟概念框架上的实例性。

大模型隐含的另一项原理性突破/局限是弱共识性。大模型用人类的语元与人交流，但对大模型而言，语元只附带着概念的统计关联；对人而言，语元却附带着概念的三种关联。于是，人类语言交往史上最奇妙的一幕发生了：由于人在自然语言交流中不可能将概念的第二、三种关联与第一种关联相剥离，所以在与大模型的交互中，人会不自觉地将自己的概念投射到大模型的语元上，即默认大模型说出的每一个语元都表达人的对应概念（附带着三种关联），而无法意识到大模型只拥有拟概念，它的语元只代表拟概念。结果，人与大模型的交互实际上只具有“弱共识性”，即对语元之间的统计关联有共识（因为大模型获得的统计关联来源于人类语料），对人类概念的第二、三种关联没有共识（大模型没有这些关联）。

弱共识性是人难以意识到的，这导致人类普遍出现了对大模型的幻觉，而且是真实意义上的幻觉，即当不存在相应的客体刺激时出现了知觉体验。这种知觉体验让人们相信，大模型已经掌握了人的概念，已经能够理解人类的语言甚至思想和情感，而大模型犯的错误源于技术还不够成熟，成熟之后大模型就将拥有人类的智能。对很多人而言，这种幻觉引发了绝望性恐慌，似乎人类的末日即将来临。

第三个例子涉及“反思”。测试问题是：单词strawberry中有几个字母r？显然这也是一个计数问题，所以计数的形式千变万化，但人类却可以胜任，可见人类的抽象运算能力远超大模型。在这个测试中，大模型反复尝试了多种不同方法，有些方法的结果是“2个r”，有些方法的结果是“三个r”。碰巧最后一个方法的结果是3个r，于是该大模型给出最终答案“三个r”。

我们关心的问题是：大模型在上述回答过程中是否表现出“反思”能力？考虑到反思有多种不同的定义，我们定义“严格反思”为：重新思考自己的思考过程并判断其正确性。根据大模型在测试中的表现，它显然没有出现严格反思，因为它完全没有判断不同方法及其结果的正确性。进一步，根据前面第一个例子的分析，大模型不掌握逻辑推理的原理，所以也无法“调用”逻辑推理进行正确性判断。在这种情况下，让大模型“自我进化”将是极其危险的，它自己不能保证进化方向，也不能保证进化的结果是安全可控的。

实验测试和理论分析一致表明：大模型的工作原理与人类智能存在根本性区别，尤其在数学、逻辑、概念、反思等方面；但是，大模型对人类语料中统计信息的处理和把握远远超过任何个人。

三、双智社会及其陷阱

必须指出，人工智能技术并不限于大模型和生成式人工智能。事实上，规划式人工智能、分析式人工智能和智能化装备都取得了显著成果，也出现了成功应用，而且前景极其广阔。因此，以为人工智能就是大模型及生成式人工智能，而其他类型的人工智能技术都可以忽略，是一个极大的误解和误判，将导致对人工智能的整体判断出现致命性偏差。

这些类型的人工智能与包括大模型在内的生成式人工智能是非常不同的，实例性和弱共识性对它们都不成立。由于实例性和弱共识性的作用，未经专业训练的普通大众可以直接操纵生成式人工智能，不能直接操纵另外三种类型的人工智能。因此，生成式人工智能的普及应用将对普通大众的个人成长和职业发展产生巨大、深刻的影响。现在流行一种说法：只要学会使用ai工具，就不会被人工智能淘汰。真相到底如何？

以程序员职业为例。假设一个程序，完全依靠人工编程需要10天，而用ai工具编程只需10分钟，但还要进行人工查错、纠错。从编程效率的角度考虑，存在三种不同的情况：

第一种是简单程序，对这种程序进行人工查错纠错，使之满足设计要求，所需时间不超过10天。所以，简单程序的开发将终止传统软件开发方式。

第二种是复杂程序，对这种程序进行人工查错纠错，或人工补充ai工具没有生成的功能，所需时间明显超过10天。所以，复杂程序的开发将继续保持人工编程为主，同时在开发过程中使用ai工具作为辅助。

第三种是创新型程序，即以往没有出现过的程序。ai工具可以帮助创新型程序的开发，但其作用有限，主要依靠程序员的专业能力和创造力，所以仍然以人工编程为主，以ai编程工具为辅。

进一步考察简单程序开发的三个基本步骤：1.理解编程需求；2.用ai工具生成程序；3.人工查错纠错。显然，主要难度集中于步骤1和步骤3，而这两个步骤都依赖于编程的专业知识和实际技能。

通过以上分析得出结论：只有简单程序适合ai编程，但仍然要求程序员具备编程的专业技能。复杂程序和创新型程序仍将主要依靠程序员的专业技能和创造力。所以，不掌握编程专业知识和技能的人，即使学会了使用ai工具，仍然无法胜任人工智能时代的编程职业。

再以文员职业为例。文员可以使用大模型等ai工具自动生成文字、图片、视频等，但还要人工查错、纠错。从文案质量的角度出发，有三种情况：第一种是简单文案，这种文案不需要相关领域的专业知识和技能即可完成人工查错纠错；第二种是复杂文案，需要相关领域的专业知识和技能才可以完成人工查错纠错；第三种是创意文案，主要依靠创意决定文案的质量和效果。大模型生成的文案来源于训练语料中相关内容的重复或重组，需要使用者判断大模型生成内容的恰当性，这种判断以相关领域的专业素养和创造力为基础。

上述三种文案对文员的要求是不同的。不具备相关领域专业知识、技能和创意的人，可以从事简单文案生成；具备相关领域专业知识、技能的人，可以从事复杂文案生成；具有创意并具备相关领域专业知识、技能的人，可以从事创意文案生成。所以，只有简单文案的生成不需要相关领域的专业知识和技能。不过，随着ai工具的普及应用，社会对各种文案尤其简单文案的质量要求必然快速提高，简单文案的比例也将随之快速下降，导致文员职业对各个领域专业知识技能和创意能力的要求不断提高。

还有一个“残酷”的现实：一旦职业需要，所有人都能学会使用ai工具，包括具有创意和具备相关领域专业知识和技能的人。于是我们得出分析结论：在受过高等教育的人群中，只会使用ai工具的文员将被淘汰。

程序员和文员是服务业的两种最有代表性的职业。上述分析揭示了一个真相：相信“只要学会使用ai工具就不会被淘汰”，是现阶段个人成长和职业发展的最大陷阱。

双智社会是一个全新社会，而不是以往单智社会的加强版，人类必须抛弃单智社会的习惯思维，在双智社会中重新寻找自己的位置。为此，一个关键问题是：在双智社会中，人类智能相对于机器智能的核心优势是什么？

以下四种能力是人工智能的主要短板和人类智能的主要强项。第一，判断能力。大模型由于数学、逻辑能力的先天局限，无法避免低级错误，进而导致判断力不足。相对而言，人类具备数学、逻辑的基础能力，在此基础上能够形成更强的判断力，从而识别、纠正大模型的判断失误。

第二，专业能力。大模型依赖从训练数据中提取统计关联，越专业的内容，数据相对越少，所以大模型的专业能力相对较弱。对于专业工作而言，必须依靠人类掌握的各个领域的专业知识和技能，对大模型的输出进行查错纠错，并弥补大模型专业能力的不足。

第三，涉世能力。大模型不与真实世界直接交互，只接触语言型数据，也不具备语言与世界之间的对应能力。相反，人类与现实世界直接交互，通过这种交互能够获得语言数据没有记录的大量真实世界信息，从而超越机器智能。

第四，生机能力，即生命力。机器智能没有生命，也无法获得生命体验，一切生机现象都对机器“绝缘”。而人类最重要的特性根植于生命活动之中，生命的精彩是机器智能可望而不可即的。

上述四种能力中，判断能力和专业能力是人类智能和机器智能共同拥有的，但在某些场合人类智能较强、另一些场合机器智能较强，人类成员必须强化自己的判断能力和专业能力，才不会在职业生涯中被机器智能淘汰。另外两种能力，涉世能力和生机能力是机器完全不具备的，是人类智能独占的领地，也应该是人类在双智社会中长期发展的重点方向。以上分析概括为图4.