AI时代终结图灵测试:科学界呼吁重新定义机器智能评估标准

2025年10月21日20:43:09 科学 1877

AI时代终结图灵测试:科学界呼吁重新定义机器智能评估标准 - 天天要闻


当今最先进的人工智能系统已经能够轻松通过图灵测试,但这一75年前设计的经典评估方法正面临前所未有的质疑。在伦敦皇家学会近期举办的纪念活动中,来自全球的顶尖研究者达成共识:模仿人类对话的能力并不等同于真正的智能,科学界亟需建立全新的AI评估框架。这一转变不仅关乎技术标准的更新,更涉及人类社会如何定义和管理人工智能的根本问题。

图灵测试的失效源于现代AI技术的快速发展。大型语言模型通过学习互联网上的海量文本数据,已经具备了极其逼真的对话能力,能够在短时间内说服人类评判者相信自己是真人。然而,这种表面的流畅性掩盖了深层的认知缺陷。研究表明,当面对训练数据之外的问题时,即使是最先进的AI系统也会暴露出令人困惑的局限性,比如无法正确识别基本物体部位,或在简单的视觉推理任务中出现系统性错误。

从模仿转向功能评估的范式转变

AI时代终结图灵测试:科学界呼吁重新定义机器智能评估标准 - 天天要闻

纽约大学神经科学家加里·马库斯在主题演讲中强调,追求通用人工智能可能本身就是一个错误的目标。他指出,一些最成功的AI应用恰恰是高度专业化的系统,如谷歌DeepMind的蛋白质结构预测器AlphaFold。这些系统专注于单一任务,却能在特定领域达到超越人类的性能水平。

这种观点得到了与会专家的广泛认同。英国萨塞克斯大学神经科学家阿尼尔·塞斯认为,对通用人工智能的过度关注实际上限制了人们的想象力,使科学界忽视了AI技术的多元化发展可能性。他建议将重点从"机器能否像人类一样思考"转向"我们希望AI系统具备什么样的功能"。

AI时代终结图灵测试:科学界呼吁重新定义机器智能评估标准 - 天天要闻

艾伦·图灵,1951年。(图源:Elliott & Fry, Public domain, via Wikimedia Commons)

爱丁堡大学AI伦理学家香农·瓦洛尔提出了更为激进的观点,认为"通用人工智能"这一概念本身就是过时的科学术语,无法准确描述现实中存在的任何实体或属性。她指出,智能的定义因文化背景、环境条件和物种特征而大相径庭,试图用单一标准衡量机器智能是不现实的。

瓦洛尔建议完全摒弃"机器是否智能"的问题,转而关注"机器具体能够完成什么任务"。这种功能导向的评估方法有助于避免将理解力、共情能力等人类特有的认知特征错误地归属于AI系统。通过将复杂的智能概念分解为具体的能力维度,研究者能够更准确地评估AI技术的实际价值和应用前景。

安全性与社会价值的优先考量

AI时代终结图灵测试:科学界呼吁重新定义机器智能评估标准 - 天天要闻

人工智能研究员加里·马库斯(左)与演员劳伦斯·菲什伯恩出席图灵活动。(图源:Courtesy of the Web Science Institute at the University of Southampton)

随着AI技术在社会各个层面的深入应用,其潜在风险也日益凸显。瓦洛尔强调,科技公司对通用人工智能的炒作实际上转移了公众对AI实际危害的关注。这些危害包括技能退化、认知偏差生成以及训练数据中社会偏见的放大等问题。

来自谷歌DeepMind的威廉·艾萨克代表行业观点指出,未来的AI评估标准应当优先考虑系统的安全性、可靠性和社会效益。他提出的新评估框架包括三个核心问题:AI系统是否安全可靠、是否提供有意义的社会价值、以及这些价值的成本和收益如何在社会中分配。

这种以安全为中心的评估理念要求对AI系统的恶意使用风险和意外后果进行全面评估。瓦洛尔建议,AI模型应当在安全指标上展开竞争,而非传统的智能基准测试,包括评估系统被滥用的难易程度以及在现实应用中产生意外或有害结果的可能性。

传统的图灵测试之所以不再适用,部分原因在于它忽视了AI技术的社会影响维度。剑桥大学文学研究者莎拉·迪伦提醒说,图灵最初提出这一思想实验时,并未将其设想为严格的技术评估工具,而是用于哲学层面的思辨。

多元化评估体系的探索方向

面对图灵测试的局限性,研究界正在探索多种替代方案。马库斯提出了"图灵奥运会"的概念,通过十余项不同测试来综合评估AI能力,包括观看电影并理解情节、按照说明书组装物品等实际任务。这种多维度评估方法能够更全面地检验AI系统在不同应用场景下的表现。

然而,其他研究者对这种仍以"通用智能"为目标的方法提出质疑。塞斯强调了具身智能的重要性,认为与物理身体的连接不仅仅是智能的附加特征,而是智能运作的构成性要素。这一观点挑战了纯粹基于语言或逻辑推理的AI评估方法。

最新的评估工具如抽象推理语料库第二版试图通过基于谜题的测试来评估AI的适应性推理能力。这类测试专注于AI系统处理新问题的能力,而非简单的模式匹配。但研究界对于是否存在单一的通用智能基准仍存在根本分歧。

当前AI发展的一个重要趋势是专业化应用的兴起。从医疗诊断到金融分析,从自动驾驶到科学研究,AI系统正在各个垂直领域展现出强大的能力。这种发展模式表明,与其追求模糊的"通用智能"目标,不如专注于开发能够解决具体问题的专业化AI系统。

图灵测试的终结标志着AI评估理念的根本性转变:从追求模仿人类转向服务人类需求。这种转变要求重新思考AI技术的发展目标、评估标准和社会责任,确保人工智能真正成为增进人类福祉的工具。随着AI技术的不断发展,建立科学、全面、面向未来的评估体系将成为确保技术安全发展和社会有序进步的关键保障。

科学分类资讯推荐

首张嗅觉图谱问世 或重塑嗅觉形成认知 - 天天要闻

首张嗅觉图谱问世 或重塑嗅觉形成认知

研究人员以前所未有的细节绘制了小鼠鼻腔中的嗅觉受体分布图谱。这一成果颠覆了人们对鼻子如何产生嗅觉的认知。△小鼠鼻腔的显微镜横截面图像,显示了鼻腔上皮的解剖结构。图片来源:Datta Lab4月28日发表于《细胞》的一项研究,揭示了感觉神经元上表达的约1100个嗅觉受体是如何在鼻腔内壁上皮组织中受到严格调控的空间位置...
心脏为什么不会得癌症? - 天天要闻

心脏为什么不会得癌症?

心脏为什么不会得癌症?心肌细胞会进行有节律的搏动,并在个体出生后停止增殖,因此,心脏没有再生能力。近日,意大利的里雅斯特大学医学院Serena Zacchigna团队完成的体内癌症模型和离体工程心脏组织实验表明,心肌细胞搏动所产生的机械力负
暴雨、冰雹要来,广东天气明起大反转!珠海接下来…… - 天天要闻

暴雨、冰雹要来,广东天气明起大反转!珠海接下来……

【来源:珠海发布】“五一”假期前两天, 珠海天气晴好,大家都去哪里玩了?不过天气马上要反转再反转了! 广东明天好天气要暂时“下线”,局部有大暴雨、小冰雹;珠海明天午后也将有雷雨+10级大风…… 这场雨会持续多久?假期接下来的天气会怎样?赶紧
河北衡水:假日邂逅飞行 低空魅力引游人 - 天天要闻

河北衡水:假日邂逅飞行 低空魅力引游人

5月2日,位于河北省衡水市的中国航协衡水航空飞行营地,各类飞行表演和低空飞行器展示吸引市民游客观赏。中国桃城第四届“翱翔中国”全国低空无人飞行器大赛暨第二届京津冀低空飞行器集采会于5月1日至2日在此举行。图为游客近距离参观飞行器。
可拍原子运动过程 揭秘地下30米的“国之重器” - 天天要闻

可拍原子运动过程 揭秘地下30米的“国之重器”

来源:央视新闻客户端坐落在上海张江的硬X射线自由电子激光装置是“十三五”国家重大科技基础设施建设规划优先启动项目,也是上海(长三角)国际科技创新中心核心空间载体——张江科学城重大科技基础设施集群的旗舰装置,是我国实现2035年建成科技强国战