人类正在抢机器人的工作？揭秘AI背后的隐秘劳工

2025年02月28日21:20:34 科学 8135

（来源：mit technology review）

尽管我不是机器人，但在互联网上我常常需要花费大量时间来证明“我不是机器人”，比如，点击照片中的人行横道和摩托车、辨认扭曲的数字与字母，甚至还要勾选小方框来确认自己并非机器人。

这些所谓的验证码，也就是“完全自动化的公共图灵测试以区分计算机和人类”，本应是用于防范垃圾邮件和数据爬取的，但如今看来，机器人在破解验证码方面似乎比人类更为擅长，这着实令人费解。

幸运的是，在现实世界中区分真人和机器人要容易得多，至少目前是这样。其中，一个明显的区别在于我们的独特技能。

很大程度上，机器人往往擅长那些成年人觉得颇具难度的事情，比如国际象棋达到世界冠军水平，或者进行大数乘法运算；然而对于一个五岁小孩都能轻松完成的事情，它们却觉得困难重重（甚至根本做不到），比如接住一个球，或者在房间里自由走动而不撞到任何东西。

这种教机器人抽象思维相对容易，而教它们基本的感官、社交和运动技能却非常困难的现象被称为莫拉维克悖论（moravec's paradox）。

该悖论源于机器人学家汉斯·莫拉维克（hans moravec）在 20 世纪 80 年代末的一项研究，大体意思是说对人类来说困难的事情（数学、逻辑、科学推理），对机器而言却很轻松；而对机器来说困难的事情（系鞋带、读懂人类情绪、进行对话），人类做起来却轻而易举。

图｜文中提到的三本书籍（来源：mit technology review）

科学作家伊芙·赫罗尔德在其新书《机器人与爱它们的人：在社交机器人时代坚守人性》（robots and the people who love them: holding on to our humanity in an age of social robots）中提出，得益于机器学习的新方法以及人工智能的持续进步，我们终于开始逐步破解这一悖论。

在她看来，“由此带来的个人和社会机器人新时代即将来临，这将迫使我们重新审视从友谊、爱情到工作、医疗和家庭生活的方方面面。”

为了给读者展示这个新的社交机器人世界的模样，赫罗尔德提到了由日本软银集团和法国 aldebaran robotics 开发的一款人形机器人 pepper。

“像 pepper 这样的机器人很快会变得不可或缺，因为它们能与我们建立独特的高度个性化的联系。”赫罗尔德写道，“这个小伙伴能够轻松读懂我们的表情和情绪状态，并以其孩童般的声音做出恰当回应。”

pepper 听起来有点耳熟，那可能是因为自 2014 年推出后的数年间，它一直被大肆宣传为世界上第一款 “情感机器人”。

然而在 2021 年，软银突然停止了 pepper 的生产，原因是需求不足，以及 2,000 美元的售价过高且功能欠佳。

写书往往需要耗费很长时间，并且在写作过程中很多事情也会发生变化，pepper 在这本书出版前三年就已停产，而作者却似乎忽略了这一点。

将一个无人问津的产品定位为新社交机器人革命的一部分，确实让人难以信服。对此，赫罗尔德可能会回应称，她的书更多关注的是人类自身而非机器人，在我们与机器人建立的新关系中人类的角色才是重点。这似乎也有一定道理。

但尽管她认真剖析了我们赋予机器人人性化的倾向，并带领读者了解了一些关于深度学习和恐怖谷效应的基础研究，可她对人性和心理学的结论往往显得过于简单化，或者与她所提供的证据脱节。

对于一位声称“撰写关于未来的文章，唯一的方式就是保持高度谦逊”的作者来说，书中仍有许多令人质疑的论断（比如 “到目前为止，总体而言，我们对算法的信任是合理的”），以及一些过于绝对的预测（比如 “毫无疑问，某种陪伴机器人很快就会进入工业化国家的家庭”）。

在书的开头部分，赫罗尔德提醒读者：“试图展望未来的科普写作，往往更多地反映了写作时的时代特征，而非未来世界的真实面貌。” 从这个角度来看，她的书确实很有启发性。

例如，这本书反映了我们倾向于将技术影响的讨论简化为二元对立（比如“这太棒了”/“这太糟糕了”）、面对不良后果我们常常表现出无奈的默认态度、科普作家很容易受到行业炒作的影响，以及令人不安的是机器的逻辑和价值观（速度、效率）在很大程度上已经被人类所接纳。

这些可能并非赫罗尔德想要传达的要点，但如果这本书证明了什么的话，那就是并非机器人变得越来越像我们，而是我们变得越来越像机器人。

若想深入了解人类社会表达的一个核心媒介，特别是我们如何尝试将其转移至机器上，那么莎拉·贝尔的《机器之声：会说话机器的文化史》（vox ex machina: a cultural history of talking machines）呈现了一个引人入胜且见解深刻的 20 世纪“语音合成”发展历程。

贝尔是密歇根理工大学的教授，她对我们如何尝试以数字方式再现人类的各种表现形式感兴趣，无论是言语、情感还是视觉形象。

正如她在书中开篇所指出的，“理解这一过程往往意味着要了解工程师（几乎都是男性）是如何决定测量和量化我们身体的各个方面的。”

故事始于 20 世纪许多重要技术突破的中心 —— 贝尔实验室。到 20 世纪 30 年代，贝尔实验室的研究人员已经开始将人类语音视为一种信号，或者是“一种特殊的声学代码”。

其中，工程师霍默·达德利将舌头比作电报机的按键，认为它只是我们口腔内的一种工具，用来调制从声门发出的“载波”。

达德利相信，就像摩尔斯电码将文字分解以便之后重组一样，语音以及构成人类丰富语音表达的一切，同样可以被压缩或简化为脉冲信号。

按照贝尔的说法，“像达德利这样的研究人员为此后几乎所有的语音合成工作打下了基础。他们将对人类语音机械本质的假设融入了后续所有技术中。”

（来源：mit technology review）

达德利最著名的早期研究成果之一是 voder（语音演示器），它在 1939 年纽约世界博览会上首次亮相，其本质上是一个“小型语音乐器”，由“voderettes”操作。这些 voderettes（操作员）需要经过一年的训练，通过操纵 10 个按键、一个腕板和一个踏板掌握这台机器能发出的所有语音。

这种会说话机器的演示尽管经过精心编排，但还是受到了参观者和媒体的热烈追捧，以至于人们似乎赋予了 voder 远超其实际水平的理解力和自主性。

即使在整个演示过程中，voder 的操作员始终在人们的视线范围内，但媒体通常只是顺带提及负责控制发出声音的人（有的甚至根本不提）。

显然，voder 被拟人化了，并赋予了高度的自主权。《大众科学》杂志写道：“它没有嘴巴和喉咙，但说起话来滔滔不绝。”

从 voder 和 elektro the moto-man，到会说话的拼写学习玩具 speak & spell 和 perfect paul，再到 alexa 和 siri，这本书不仅展示了语音合成的产品，还揭示了使它们成为可能的基础技术。

这是一个引人入胜的探索之旅，尤其是当贝尔发现当时公众对这些 “会说话的机器” 的反应预示了几十年后人们对“会思考的机器” 的反应。

虽然用机器比喻人类、用人类比喻机器的做法可以追溯到几个世纪前，但机器模拟人类语言的能力（无论多么蹩脚）为“机器拟人化赋予了新的内涵”，贝尔表示。

换句话说，机器越能 “说话”和“思考”，我们就越认为自己也是机器的一部分。诚然，人们不禁会发现，这与当今人工智能的发展有着惊人的相似之处，特别是我们愿意减少或忽视让我们成为人类的特质，以更好地适应产品所展示的“智能”属性。

比如，openai 的萨姆·奥尔特曼对大语言模型本质上只是出色的文字计算器这一事实的回应，“我是一只随机鹦鹉，你也是。” 他说道。

“别担心自动化会抢走我们的工作，现实情况正好相反，其是人类抢走了机器人的工作。”

——antonio a. casilli

或许，voder 只是语音合成领域最早的初步尝试之一，它的实际运作方式（依赖大量人类训练和劳动）与公众及媒体的认知（将其视为具有自主发声能力的机器）之间的脱节，预示了我们今天仍面临的问题。

安东尼奥·卡西利在《等待机器人：自动化的雇佣劳动力》（waiting for robots: the hired hands of automation）一书中指出：尽管有相反的观点，但人类的参与仍然是所有现代自动化和人工智能工具的关键组成部分，无论这些工具多么先进。不同之处在于，如今这个角色不像 voderettes 那样明显，而是被隐藏起来了。

卡西利是巴黎综合理工学院的社会学教授，他所从事的研究工作支撑着当今许多社交媒体平台、微任务网站，以及按需服务的、那些未被看见和认可的“数字劳工”。

他并不认为自动化和人工智能会夺走人类的工作，而是导致工作进一步碎片化，将其分解为对我们许多人来说更细微、更无意义的任务。“别担心自动化会抢走我们的工作，现实情况正好相反，其是人类抢走了机器人的工作。”他写道。

无论是亚马逊的 mechanical turk（招募成千上万的工作者来做机器无法完成的视频筛选和图像标注等任务），还是自动化学习和人工智能训练所需的持续人类“监督”和“强化”，卡西利为读者提供了大量实例，展示了人类劳工（其中很大一部分来自亚洲、拉丁美洲和非洲国家）支撑着（有时甚至是假装成为）智能系统和产品。

最终，卡西利更担心的不是机器人会取代白领工作者，而是成千上万低薪或无偿的数字工作者会取而代之。正如他所指出的，我们已经在不知不觉中被公司招募，每年集体无偿工作数百万小时。

以前文提到的验证码为例，谷歌拥有并使用最受欢迎的验证码服务版本之一（recaptcha 和 no captcha），十多年来一直在利用这种数字劳工。

这些劳动成果有助于识别门牌号以改进谷歌街景视图、为谷歌图书数字化文本，还能训练其计算机视觉算法来识别位置和重建场景，从而增强谷歌图片功能并提升 waymo 自动驾驶汽车的性能。“具有讽刺意味的是，一项本应区分人类和机器人的服务，实际上却让人类工作以制造出更多机器人。”卡西利写道。

尽管围绕当今人工智能工具的大肆宣传和夸张言论可能让人觉得前所未有，但卡西利提醒读者，这种言辞其实并不新鲜。

几十年来，机器人、自动化和各种智能系统一直都宣称即将接管我们工作和文化产出等方方面面。他认为，“归根结底，人工智能是一个并非真正‘人工’的技术过程，揭开高效的表象，你会发现背后全是人类的身影。”

本文作者 bryan gardiner 是一位驻加利福尼亚州奥克兰的作家。

原文链接：

https://www.technologyreview.com/2025/02/25/1111767/book-reviews-ai-robots-automation-eve-herold-sarah-a-bell-antonio-casilli/