今年「具身智能」被首次寫入政府工作報告,引發業界內外關注。作為未來產業的重要代表之一,具身智能的發展對推動人工智慧、機器人等產業更好地實現落地應用有著重要意義。
相較於已經為大眾所熟知的人工智慧,具身智能對於不少人來說還較為陌生。何為具身智能?它與人工智慧的區別是什麼?簡單來說,具身智能的英文是embodied artificial intelligence,人工智慧的英文是artificial intelligence。從字面意思來看,具身智能相當於給人工智慧加上了一個定語,可以理解為給予人工智慧一個實體,使得人工智慧變成了具身智能。本質上,具身智能是人工智慧的一個子集。
具體來說,具身智能可以被理解為把人工智慧所包含的演算法、模型、數據等應用在實物載體上,比如常見的機械臂、機器狗、人形機器人、無人機,包括智能眼鏡等設備,都可以作為具身智能的代表和載體。
關於具身智能的落地形態一直受到關注。其中一個討論已久的觀點是,人形機器人被認為是具身智能最重要的載體。事實上,討論具身智能的落地形態主要取決於人類對發展人工智慧的終極目標是什麼。人工智慧發展至今,不論是大語言模型、多模態模型或視覺大模型,都希望達到通用的目標,即agi(通用人工智慧)。筆者認為,適合人工智慧實現通用化的場景,就是人類生產生活的場景。某種程度上,只需要讓人形機器人遵守人類社會的規章制度,以及在各種生產環境下的生產規則等即可,最大程度上減少了人類對新場景、新規範的定製化設計成本。
著名科學家費曼曾說:「凡是我不能創造的,我就不能真正理解。」事實上,人類目前能創造出的最高智慧體就是人類本身,或者說人工智慧,即建立以人類思考、行為為範式的智能體。能夠承載這一智能範式的硬體載體有很多,包括四足機器人、輪式機器人、無人機等,而當人形機器人作為形態更接近人類的硬體載體,可以更快速地接入人類的工作生活場景,無需單獨地為設計適配的場景和法規。
換句話說,討論具身智能的落地形態也可以理解為,如何讓具身智能看得見、摸得著,讓人類對其賦能作用更可感。而尋找具身智能落地場景併產生價值,也正是行業發展的重要任務之一。例如,一些工作強度大、危險性高的高附加值的場景,就適合讓具身智能代替人類完成部分勞動,包括危險品排爆、廢棄核電站、污染排放等危險性工作場景。
具身智能尚處於初級發展階段,從長遠發展來看,具身智能還需重點突破基礎運動能力等問題。如今,大語言模型或多模態大模型已經在虛擬空間中展現出較強的泛化能力和任務決策能力。例如,當我們問大模型如何做一頓早餐,它可以詳細地列出具體步驟,這體現的是其任務拆解、邏輯推理能力。而對於執行做早餐這一具體任務,比如拿起一把刀,具身智能現有自身運動能力還難以達到,或者說只有在某些固定場景下才能實現。
具身智能涵蓋硬體和演算法兩大部分,兩者都是決定運動能力的重要因素。以人形機器人為例,目前在硬體結構構型上尚未有充分定論。從2020年開始,每年都有不同的人形機器人構型出現,也伴隨著更優的結構和硬體單元。由此可見,不斷進化的機器人硬體,更加優化的人工智慧演算法,以及尋找到市場空間廣闊的適配場景,都是發展具身智能的重要議題。(作者:央廣網財經金頂智庫專家、國家地方共建具身智能機器人創新中心學術委員會主任張強)