金顶智库|张强：具身智能的终极目标是实现通用的具身化人工智能

分类：科技

浏览数：9899

2025-03-08

今年“具身智能”被首次写入政府工作报告，引发业界内外关注。作为未来产业的重要代表之一，具身智能的发展对推动人工智能、机器人等产业更好地实现落地应用有着重要意义。

相较于已经为大众所熟知的人工智能，具身智能对于不少人来说还较为陌生。何为具身智能？它与人工智能的区别是什么？简单来说，具身智能的英文是embodied artificial intelligence，人工智能的英文是artificial intelligence。从字面意思来看，具身智能相当于给人工智能加上了一个定语，可以理解为给予人工智能一个实体，使得人工智能变成了具身智能。本质上，具身智能是人工智能的一个子集。

具体来说，具身智能可以被理解为把人工智能所包含的算法、模型、数据等应用在实物载体上，比如常见的机械臂、机器狗、人形机器人、无人机，包括智能眼镜等设备，都可以作为具身智能的代表和载体。

关于具身智能的落地形态一直受到关注。其中一个讨论已久的观点是，人形机器人被认为是具身智能最重要的载体。事实上，讨论具身智能的落地形态主要取决于人类对发展人工智能的终极目标是什么。人工智能发展至今，不论是大语言模型、多模态模型或视觉大模型，都希望达到通用的目标，即agi（通用人工智能）。笔者认为，适合人工智能实现通用化的场景，就是人类生产生活的场景。某种程度上，只需要让人形机器人遵守人类社会的规章制度，以及在各种生产环境下的生产规则等即可，最大程度上减少了人类对新场景、新规范的定制化设计成本。

著名科学家费曼曾说：“凡是我不能创造的，我就不能真正理解。”事实上，人类目前能创造出的最高智慧体就是人类本身，或者说人工智能，即建立以人类思考、行为为范式的智能体。能够承载这一智能范式的硬件载体有很多，包括四足机器人、轮式机器人、无人机等，而当人形机器人作为形态更接近人类的硬件载体，可以更快速地接入人类的工作生活场景，无需单独地为设计适配的场景和法规。

换句话说，讨论具身智能的落地形态也可以理解为，如何让具身智能看得见、摸得着，让人类对其赋能作用更可感。而寻找具身智能落地场景并产生价值，也正是行业发展的重要任务之一。例如，一些工作强度大、危险性高的高附加值的场景，就适合让具身智能代替人类完成部分劳动，包括危险品排爆、废弃核电站、污染排放等危险性工作场景。

具身智能尚处于初级发展阶段，从长远发展来看，具身智能还需重点突破基础运动能力等问题。如今，大语言模型或多模态大模型已经在虚拟空间中展现出较强的泛化能力和任务决策能力。例如，当我们问大模型如何做一顿早餐，它可以详细地列出具体步骤，这体现的是其任务拆解、逻辑推理能力。而对于执行做早餐这一具体任务，比如拿起一把刀，具身智能现有自身运动能力还难以达到，或者说只有在某些固定场景下才能实现。

具身智能涵盖硬件和算法两大部分，两者都是决定运动能力的重要因素。以人形机器人为例，目前在硬件结构构型上尚未有充分定论。从2020年开始，每年都有不同的人形机器人构型出现，也伴随着更优的结构和硬件单元。由此可见，不断进化的机器人硬件，更加优化的人工智能算法，以及寻找到市场空间广阔的适配场景，都是发展具身智能的重要议题。（作者：央广网财经金顶智库专家、国家地方共建具身智能机器人创新中心学术委员会主任张强）

科技分类资讯推荐