
当今最先进的人工智能系统已经能够轻松通过图灵测试,但这一75年前设计的经典评估方法正面临前所未有的质疑。在伦敦皇家学会近期举办的纪念活动中,来自全球的顶尖研究者达成共识:模仿人类对话的能力并不等同于真正的智能,科学界亟需建立全新的AI评估框架。这一转变不仅关乎技术标准的更新,更涉及人类社会如何定义和管理人工智能的根本问题。
图灵测试的失效源于现代AI技术的快速发展。大型语言模型通过学习互联网上的海量文本数据,已经具备了极其逼真的对话能力,能够在短时间内说服人类评判者相信自己是真人。然而,这种表面的流畅性掩盖了深层的认知缺陷。研究表明,当面对训练数据之外的问题时,即使是最先进的AI系统也会暴露出令人困惑的局限性,比如无法正确识别基本物体部位,或在简单的视觉推理任务中出现系统性错误。
从模仿转向功能评估的范式转变

纽约大学神经科学家加里·马库斯在主题演讲中强调,追求通用人工智能可能本身就是一个错误的目标。他指出,一些最成功的AI应用恰恰是高度专业化的系统,如谷歌DeepMind的蛋白质结构预测器AlphaFold。这些系统专注于单一任务,却能在特定领域达到超越人类的性能水平。
这种观点得到了与会专家的广泛认同。英国萨塞克斯大学神经科学家阿尼尔·塞斯认为,对通用人工智能的过度关注实际上限制了人们的想象力,使科学界忽视了AI技术的多元化发展可能性。他建议将重点从"机器能否像人类一样思考"转向"我们希望AI系统具备什么样的功能"。

艾伦·图灵,1951年。(图源:Elliott & Fry, Public domain, via Wikimedia Commons)
爱丁堡大学AI伦理学家香农·瓦洛尔提出了更为激进的观点,认为"通用人工智能"这一概念本身就是过时的科学术语,无法准确描述现实中存在的任何实体或属性。她指出,智能的定义因文化背景、环境条件和物种特征而大相径庭,试图用单一标准衡量机器智能是不现实的。
瓦洛尔建议完全摒弃"机器是否智能"的问题,转而关注"机器具体能够完成什么任务"。这种功能导向的评估方法有助于避免将理解力、共情能力等人类特有的认知特征错误地归属于AI系统。通过将复杂的智能概念分解为具体的能力维度,研究者能够更准确地评估AI技术的实际价值和应用前景。
安全性与社会价值的优先考量

人工智能研究员加里·马库斯(左)与演员劳伦斯·菲什伯恩出席图灵活动。(图源:Courtesy of the Web Science Institute at the University of Southampton)
随着AI技术在社会各个层面的深入应用,其潜在风险也日益凸显。瓦洛尔强调,科技公司对通用人工智能的炒作实际上转移了公众对AI实际危害的关注。这些危害包括技能退化、认知偏差生成以及训练数据中社会偏见的放大等问题。
来自谷歌DeepMind的威廉·艾萨克代表行业观点指出,未来的AI评估标准应当优先考虑系统的安全性、可靠性和社会效益。他提出的新评估框架包括三个核心问题:AI系统是否安全可靠、是否提供有意义的社会价值、以及这些价值的成本和收益如何在社会中分配。
这种以安全为中心的评估理念要求对AI系统的恶意使用风险和意外后果进行全面评估。瓦洛尔建议,AI模型应当在安全指标上展开竞争,而非传统的智能基准测试,包括评估系统被滥用的难易程度以及在现实应用中产生意外或有害结果的可能性。
传统的图灵测试之所以不再适用,部分原因在于它忽视了AI技术的社会影响维度。剑桥大学文学研究者莎拉·迪伦提醒说,图灵最初提出这一思想实验时,并未将其设想为严格的技术评估工具,而是用于哲学层面的思辨。
多元化评估体系的探索方向
面对图灵测试的局限性,研究界正在探索多种替代方案。马库斯提出了"图灵奥运会"的概念,通过十余项不同测试来综合评估AI能力,包括观看电影并理解情节、按照说明书组装物品等实际任务。这种多维度评估方法能够更全面地检验AI系统在不同应用场景下的表现。
然而,其他研究者对这种仍以"通用智能"为目标的方法提出质疑。塞斯强调了具身智能的重要性,认为与物理身体的连接不仅仅是智能的附加特征,而是智能运作的构成性要素。这一观点挑战了纯粹基于语言或逻辑推理的AI评估方法。
最新的评估工具如抽象推理语料库第二版试图通过基于谜题的测试来评估AI的适应性推理能力。这类测试专注于AI系统处理新问题的能力,而非简单的模式匹配。但研究界对于是否存在单一的通用智能基准仍存在根本分歧。
当前AI发展的一个重要趋势是专业化应用的兴起。从医疗诊断到金融分析,从自动驾驶到科学研究,AI系统正在各个垂直领域展现出强大的能力。这种发展模式表明,与其追求模糊的"通用智能"目标,不如专注于开发能够解决具体问题的专业化AI系统。
图灵测试的终结标志着AI评估理念的根本性转变:从追求模仿人类转向服务人类需求。这种转变要求重新思考AI技术的发展目标、评估标准和社会责任,确保人工智能真正成为增进人类福祉的工具。随着AI技术的不断发展,建立科学、全面、面向未来的评估体系将成为确保技术安全发展和社会有序进步的关键保障。