一脑多机!智源的新发布,让不同机器人轻松协作

2025年04月02日12:23:03 科技 1595

3 月 29 日,智源研究院在 2025 中关村论坛 “未来人工智能先锋论坛” 上发布首个跨本体具身大小脑协作框架 RoboOS 与开源具身大脑 RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。


增强长程操作任务能力

打造感知 - 认知 - 决策 - 行动闭环


一脑多机!智源的新发布,让不同机器人轻松协作 - 天天要闻


在具身场景中,长程操作任务是机器人执行复杂任务的核心能力之一。具身大脑 RoboBrain 融合了机器人任务规划、可操作区域感知、轨迹预测的三维能力,通过将抽象指令映射为具象动作序列,增强长程操作任务的能力。


RoboBrain 由三个模块组成:用于任务规划的基座模型、用于可操作区域感知的 A-LoRA 模块和用于轨迹预测的 T-LoRA 模块。在推理时,模型首先感知视觉输入,并将输入指令分解为一系列可执行的子任务,然后执行可操作区域感知和轨迹预测。RoboBrain 采用多阶段训练策略,使其具备长历史帧记忆和高分辨率图像感知能力,进而提升场景感知和操作规划的能力。


RoboBrain 在任务规划、可操作区域感知和轨迹预测评测任务中均表现出卓越性能。


任务规划方面,RoboBrain 在不牺牲通用能力的前提下,在机器人规划评测集 OpenEQA、ShareRobot(自建)和 RoboVQA 上多个维度优于 GPT-4V、Claude3 等 6 个当时领先的闭源 / 开源 MLLMs。


一脑多机!智源的新发布,让不同机器人轻松协作 - 天天要闻

RoboBrain 在具身规划评测基准上的性能


可操作区域感知方面,RoboBrain 在 AGD20K 测试集上的平均精度超过了当时最先进的开源模型 Qwen2-VL,验证了其在指令理解和物体属性方面的卓越能力。


一脑多机!智源的新发布,让不同机器人轻松协作 - 天天要闻

RoboBrain 在可操作区域感知基准上的性能


轨迹预测方面,RoboBrain 预测的操作轨迹具有与真实轨迹较高的相似度,展现了其在轨迹预测中的高精度和稳定性。RoboBrain 的未来迭代版本会持续提高轨迹预测的能力。


一脑多机!智源的新发布,让不同机器人轻松协作 - 天天要闻

RoboBrain 在轨迹预测基准上的性能


目前,RoboBrain 能够解读人类指令和视觉图像,以生成基于实时图像反馈的行动计划和评估,预测每一步的轨迹并感知相应的可操作区域。具体而言,RoboBrain 能够有效利用环境信息和交互对象的状态 —— 无论是从第一人称还是第三人称视角捕捉的图像 —— 生成针对不同类型机器人操作任务的任务规划,并基于人类指令和视觉信息,提供合理的可操作区域,并能在不同场景中表现出良好的泛化能力,生成既可行又合理的轨迹。


一脑多机!智源的新发布,让不同机器人轻松协作 - 天天要闻


具身大脑 RoboBrain、小脑技能库以及跨机器人数据中枢,是跨本体框架 RoboOS 的核心要素。具身大脑 RoboBrain,负责全局感知与决策,构建动态时空感知、规划指导和反馈纠错机制;小脑技能库,负责低延迟精准执行,实现柔性与精密操作等;跨机器人数据中枢,负责实时共享空间、时间和本体记忆,为决策规划与优化协作操作提供信息支持,从而形成感知 - 认知 - 决策 - 行动的闭环。


一脑多机实现跨本体协作

从单体智能迈向群体智能


跨本体具身大小脑协作框架 RoboOS,基于 “大脑-小脑” 分层架构,通过模块化设计、智能任务管理和跨本体协作,为机器人提供高效、灵活、可扩展的底层支持,实现从单机智能到群体智能的跃迁。


在 RoboOS 的分层架构下,具身大脑 RoboBrain 的复杂场景感知与决策能力,可与小脑技能库的高效执行能力深度结合,确保协作框架在长周期、高动态任务中的稳定运行。实现大脑模型(如 LLM/VLM)与小脑技能(如抓取、导航)的 “即插即用”,目前,可支持松灵双臂、睿尔曼单 / 双臂、智元人形、宇树人形等不同类型的具身本体。


通过共享记忆系统(空间记忆 / 时间记忆 / 本体记忆),实现多个机器人之间的状态同步与智能协作,突破传统 “信息孤岛” 限制,实现跨本体协作控制。


RoboOS 可动态管理多机器人任务队列,支持优先级抢占与资源优化分配,确保复杂场景下实时响应,实现高并发任务调度。


此外,RoboOS 可基于执行反馈动态调整策略,结合环境变化,持续优化任务规划,提升鲁棒性,做到实时闭环优化。


在 “递送苹果和水果刀” 的任务场景中,基于 RoboOS 及 RoboBrain,睿尔曼单臂机器人(转运)、宇树人形 G1(挑拣水果)、松灵双臂机器人(挑拣水果刀)分工协作。


整体任务流程是睿尔曼调用 “导航技能” 移动至餐桌前,宇树 G1 调用 “视觉抓取技能” 完成指定物体的挑拣,睿尔曼调用 “抓取技能” 提起果篮并导航至松灵餐桌前。紧接着,松灵调用 “抓取技能” 获取水果刀,并放置在果篮中心,睿尔曼依据 “空间记忆” 导航至办公桌位置,递送果篮后返回待命。


RoboOS 接收 “拿离杯子最近的水果,并递送一把水果刀” 指令后,递送 RoboBrain 进行任务拆解,并将拆解后的子任务分发给 3 台跨本体机器人。RoboBrain 通过 "空间记忆" 感知环境,确定果篮、苹果位置,并拆解任务为 “宇树 G1 挑拣苹果→睿尔曼传递果篮→松灵机器人抓取水果刀→睿尔曼返回”。


各机器人本体执行子任务过程中,由 RoboOS 提供端云协作能力,将任务规划为技能粒度,实现云端 RoboBrain 分发规划,端侧执行技能并实时反馈。RoboBrain 识别 “离杯子最近的水果位置”、“果篮抓取位置 affordance”、“水果刀抓取位置 affordance”、“果篮空闲位置 Pointing”,经由 RoboOS 递送指导各机器人本体完成任务


“即插即用” 快速轻量化泛化部署

打造统一生态


RoboOS 作为面向多机器人系统的跨本体具身大小脑协作框架,专为解决当前具身智能落地过程中的通用性适配与多机调度难题而设计。针对异构本体难以统一接入、任务调度效率低、缺乏动态错误反馈机制等痛点,基于 RoboOS 的 “大小脑协同” 的架构范式,云端的具身大脑 RoboBrain 负责统一的任务理解、规划决策与上下文感知,本体侧则接入轻量级的小脑执行模块,实现感知 - 认知 - 决策 - 行动的闭环协作。


该机制能够动态感知本体差异、灵活适配操作指令、自动修复异常行为,有效提升系统在复杂任务场景下的鲁棒性与泛化性。RoboOS 原生支持异构机器人本体的灵活接入,以 Profile 模板机制快速完成机器人能力建模与适配。


本体的小脑模块可调用包括开源技能库、自研低阶控制器等多种技能接口,形成一个支持模块复用、即插即用的运行体系,大幅降低开发门槛与接入成本。


在云端,RoboOS 提供完备的模型适配与 API 接入能力,兼容自研的多模态 VLM,作为可插拔的大脑决策引擎,从而在服务机器人工业自动化智慧物流、智能制造等领域支撑复杂任务的多机协作需求。


借助 RoboOS 的端云一体化协同能力与动态调度机制,整个系统不仅具备高度的扩展性与可迁移性,更为未来具身智能的规模部署与生态构建奠定了通用操作系统级的基础。


一脑多机!智源的新发布,让不同机器人轻松协作 - 天天要闻


RoboOS 基于智源研究院研发的并行训练与推理框架 FlagScale,原生支持多机器人系统的端云协同能力,打造具身智能的统一底座。系统在设计上充分考虑 “多机器人 - 多模态 - 多任务” 场景,具备极高的可扩展性与低时延响应能力。


在端侧部署中,机器人注册即可自动与云端部署的 RoboBrain 大脑建立双向通信链路,通过高效发布 - 订阅机制实现实时任务调度与状态反馈,指令响应延迟低于 10ms,满足复杂动态任务的闭环控制需求。


面向机器人在长期运行中产生的海量感知与行为数据,RoboOS 提供基于内存优化的数据访问引擎,支持 TB 级别历史数据的内存随机访问能力,为任务复现、异常回溯、跨任务知识迁移等场景提供基础能力。结合 RoboBrain 的任务推理与策略优化模块,历史数据还可用于多机之间的协作知识共享,实现更强的智能演化与自主学习能力。


此外,FlagScale 作为底层支撑框架,支持大模型在多设备间的并行推理与多任务协同调度,可无缝集成视觉语言模型、轨迹生成模块、感知识别等子系统,全面释放具身大模型的系统潜力。


目前,智源研究院依托多模态大模型技术优势资源,正在联合北大清华中科院等高校院所以及银河通用、乐聚、加速进化、宇树等产业链上下游企业,积极建设具身智能创新平台,重点开展数据、模型、场景验证等研究。


此次智源研究院发布的跨本体具身大小脑协作框架 RoboOS 及开源具身大脑 RoboBrain,将有机融合和广泛链接不同构型的具身本体与丰富多元的具身模型,加速具身智能跨本体协作与规模化应用。


开放、协作、共享,是具身智能生态繁荣的必经之路,智源研究院愿携手更多产业合作伙伴,共绘具身智能生态蓝图。



科技分类资讯推荐

微软预告 Copilot Avatar,用户可自由设计 AI 形象外观 - 天天要闻

微软预告 Copilot Avatar,用户可自由设计 AI 形象外观

IT之家 4 月 5 日消息,微软在 50 周年活动上宣布,将推出可自定义形象的 AI 助手功能“Copilot Avatar”。用户可为 Copilot 设计专属虚拟形象,该形象会在对话时通过表情增强互动体验。微软近日踏入《黑镜》式科幻领域,宣布为 AI 助手 Copilot 开发虚拟形象定制功能。在 50 周年活动上,该公司透露“Copilot Avat
微软推出 Copilot Pages / Deep Research:AI 自动整理研究笔记 - 天天要闻

微软推出 Copilot Pages / Deep Research:AI 自动整理研究笔记

IT之家 4 月 5 日消息,微软在成立 50 周年之际,为 AI 助手 Copilot 推出两项新功能 ——Deep Research(深度研究)和 Pages(页面)。前者可自动化多步骤研究任务,后者能将笔记、研究内容整合为草稿。Pages 功能可将用户提供的笔记、网页内容等素材自动整理成结构化草稿,并支持持续修改与对话交互。IT之家附上演示视频...
微软 Copilot 变身“AI 管家”:一句话搞定订票购物 - 天天要闻

微软 Copilot 变身“AI 管家”:一句话搞定订票购物

IT之家 4 月 5 日消息,微软公司在 50 周年庆典活动中,宣布推出 Copilot Actions 功能,AI 智能体代表用户自主执行任务,实现预订电影票、餐厅、航班及购物等。用户只需通过对话指令,即可让 AI 代订电影票、音乐会门票、餐厅座位,甚至安排酒店和航班。此外,Copilot 还能根据需求为用户或亲友购买礼物。该功能目前已与 ...
微软 Bing 重大革新:Copilot Search 上线,AI 与传统搜索结合 - 天天要闻

微软 Bing 重大革新:Copilot Search 上线,AI 与传统搜索结合

IT之家 4 月 5 日消息,为了庆祝其 50 周年纪念日,微软刚刚宣布了 Copilot 的几个新功能。这些 AI 工具将在未来几个月内逐步推出,但一些升级功能已经可用。今天宣布的有趣功能之一是 Bing 搜索引擎的 Copilot Search。该工具将传统网络搜索与生成式搜索结果相结合。IT之家从微软博客获悉,微软声称这一功能“改变了网络搜...
微软 50 周年现神操作:AI 主持人幽默调侃三任 CEO - 天天要闻

微软 50 周年现神操作:AI 主持人幽默调侃三任 CEO

IT之家 4 月 5 日消息,微软现任首席执行官(CEO)萨提亚・纳德拉(Satya Nadella)昨日(4 月 4 日)通过官方 X 账号,发布一段 Copilot AI 采访微软三任 CEO 的趣味视频。Copilot 以幽默方式“吐槽”了鲍尔默的热情、盖茨的思考表情和纳德拉对 AI 的痴迷。IT之家附上相关视频如下: 视频中,Copilot 人工智能
国产内存要涨价了 涨幅最高5% - 天天要闻

国产内存要涨价了 涨幅最高5%

2024年底,中国长鑫存储、福建晋华在DDR4内存市场动作频频。一方面,它们积极扩大产能;另一方面,疯狂杀价,其DDR4内存价格比三大厂便宜足足50%,甚至比二手芯片还要便宜。这一举措直接让美日和中国台湾一众厂商陷入困境。被逼无奈之下,三星、SK海力士、美光甚至决定在今年底停产DDR4。如今,初战告捷的中国内存厂商在掌...
微信上线新功能 斗图更方便了 - 天天要闻

微信上线新功能 斗图更方便了

本周,鸿蒙版微信迎来重要升级,涵盖深色模式、分享文件到微信、消息撤回后支持重新编辑和发送等功能。同时,据微信派发布的消息,微信引用回复功能也有所更新。如今不仅能引用表情包和语音进行回复,回复内容也不再局限于文字,语音和表情包均可作为回复形式。此外,在表情包合并转发方面存在不同情况。若使用iPhone手机分...
曝iPhone 17 Pro升级长焦 终于放弃1200万像素 - 天天要闻

曝iPhone 17 Pro升级长焦 终于放弃1200万像素

目前,iPhone 16 Pro和iPhone 16 Pro Max的主摄与超广角都已升级至4800万像素,然而长焦端仍是1200万像素,支持5倍光学变焦。但据博主爆料,iPhone 17 Pro系列将迎来重大变革,其长焦镜头会升级为全新的4800万像素。相比1200万像素,4800万像素的解析力更佳,并且支持7倍光学品质级变焦,这也使得iPhone 17