6月1日,北京海淀科技企业银河通用推出自主研发导航大模型trackvla,标志着机器人在复杂动态环境中的自主导航跟随能力迈入了新的阶段。
北京青年报记者了解到,这款具备纯视觉环境感知、语言指令驱动、可自主推理及零样本泛化能力的具身大模型,让机器人从科幻电影中的想象逐渐走进现实生活。
trackvla的核心在于其“端到端”的设计理念,即模型能够直接从“看到的图像”和“听到的指令”中推理出“怎么走”,无需人为拆分多个步骤。这一特性使得trackvla在处理复杂导航任务时表现出色,无需提前构建环境地图,即可在不同环境中实现自主导航。即便是面对未见过的商场、电梯、游乐区等场景,trackvla也能依靠内嵌的环境理解知识实现“现学现走”。
在具体功能上,trackvla展现了八大核心能力。它能够准确理解自然语言指令,实现目标的识别与跟踪;在人流密集的环境中,也能准确识别并长时自主跟随目标;若目标走出视野,它能通过空间智能和大模型推理能力重新找回目标;同时,trackvla还能在不依赖额外采集训练数据的情况下,直接部署在陌生环境中实现长时稳定自主跟随。此外,它还具备灵活避障、适应复杂场景等特点。通过app,用户还可以实现远程可视守护,实时掌握家人动态。
值得一提的是,trackvla不仅稳定跟随人类,还能泛化至任意移动目标,如机器狗跟随路上偶遇的动物狗狗,这一能力是训练时并未教授的,展现了其强大的泛化能力。
银河通用相关负责人表示,trackvla的推出不仅是前沿技术的突破,更是推进“通用具身智能机器人”落地过程中的重要一步。未来,trackvla将赋能不同形态的机器人本体,打造更加多样化的产业生态和社会服务。
文/北京青年报记者 王斌
编辑/汪浩舟