哈工深团队提出多模态智能体Optimus-1,在MineCraft长序列任务表现接近人类水平

2025年01月24日08:50:32 科学 8462

构造一个能像人类一样推理、规划、反思、并执行各种复杂任务的智能体一直是人工智能领域的长久愿景。

近年来多模态大模型的发展为智能体领域的研究带来了新的契机。但是,现有的智能体在开放世界中执行复杂任务的能力与人类仍有较大差距。

哈尔滨工业大学(深圳)聂礼强团队,受到人类大脑及认知科学相关理论研究的启发,即“知识和经验的储存和利用在指导人类的行为和让人类灵活适应环境以完成长序列任务发挥着至关重要的作用”,致力于研究如何构建能存储知识和经验的记忆模块,并通过记忆模块为智能体执行各种复杂任务赋能。

在近期一项研究中,课题组提出一种混合多模态记忆模块,该模块包含结构化知识(hdkg,hierarchical directed knowledge graph)和多模态经验(amep,abstracted multimodal experience pool),能够为智能体在规划和反思过程中提供必要的知识和经验。

哈工深团队提出多模态智能体Optimus-1,在MineCraft长序列任务表现接近人类水平 - 天天要闻(来源:arxiv)

在此基础上构建的智能体 optimus-1, 其在开放世界环境 minecraft 中执行长序列任务的能力显著高于现有的智能体,并且在其他环境有不错的泛化性。

在开放世界环境中,智能体需要对复杂任务进行规划,在执行任务过程中反思当前状态是否正确,并对接下来的行为做出合理的决策。这与人类在真实世界中执行复杂任务的行为模式相似。因此,该成果在自动驾驶、智能制造、医疗诊断等领域有很广泛的应用前景。

例如:

在自动驾驶领域,optimus-1 的混合多模态记忆模块可以帮助车辆在复杂的交通环境中做出更智能的决策:其中,hdkg 可以提供道路和交通规则的知识;amep 则可以记录和分析过去的驾驶经验并根据当前状态做出更智能的决策,从而提高自动驾驶的安全性和效率。

在智能制造领域,optimus-1 可以帮助工厂实现自动化生产。通过 hdkg,optimus-1 可以存储生产流程和设备操作的知识;amep 则可以记录和分析过往的生产数据并做出相应的决策,从而优化生产效率和质量。

在医疗诊断领域,optimus-1 可以辅助医生进行诊断和治疗。通过 hdkg,optimus-1 可以存储医学知识和诊断流程;amep 则可以记录和分析患者的病历以及历史诊断数据,从而提供专业的诊断和治疗建议。

论文第一作者李在京表示,在确定“开放世界多模态智能体”这个课题之前,他们进行了大量调研,并关注到一些 minecraft 环境中智能体的研究工作,他和所在团队一致认为这是一个充满挑战且具有应用前景的方向。

通过李在京等人多次与老师汇报和讨论,最终确定以 minecraft 环境作为切入点,目的是在开放世界中探索如何构造一个多模态智能体。

由于之前在开放世界智能体领域没有相关研究经验,因此他们先大量调研了现有的 minecraft 环境中的工作,深入阅读相关论文并代码复现现有的工作。

期间,他们发现现有的智能体与人类水平还有很大差距,仍有很大的进步空间。这鼓舞了他们继续深入研究该领域,并提出创新性的方法。

事实上,李在京等人的动机很简单:既然要让智能体的能力接近人类水平,那么他们需要思考人类在真实世界中是如何完成各种复杂且具有挑战性的任务,并借鉴这些能力来构建强大的智能体。

受到人类认知科学领域的相关论文的启发,他们发现人类在执行复杂任务过程中,可以利用掌握的知识来做出合理的规划,并在执行任务过程中,“回忆”过往的经验,并借助经验来更好的完成当前任务。

受此启发,他们初步确立该工作的创新点:构造包含知识和经验的记忆模块,并通过该模块为智能体赋能。

由于先前没有太多可借鉴的方法,他们需要从零开始,一步步实现他们的想法,并构建完整的智能体框架。这个过程中遇到了很多问题,他们进行了很多试错,所幸最后一一解决了各种问题。

比如,在确定初步方案之后,他们尝试了多种方法,希望将智能体执行任务过程中的历史信息存储起来,并转化为知识,使智能体在执行新任务过程中利用这些知识更好地进行任务规划。他们每天讨论和改进现有的方案,但是实验一直没有预期效果。

在某一天晚上,李在京和同学讨论:“人类是如何在 minecraft 中构建知识并利用这些知识来完成任务的?”当看到“获取木块->合成木板->制作木锄->挖掘石头->制作石剑”这样的链式结构时,他突然灵光一现:为何不用结构化的知识图谱来存储这些“知识”,让智能体在环境中不断探索,并把学到的“知识”存储在知识图谱里呢?

于是他和同学立马讨论可行性和实现方法,用了一天的时间把想法实现并做了改进优化。而实验结果也如预期一般,显著超过了现有方法,这让他们很受鼓舞。

不过,他们并不满足于实验结果超过现有方法多少,而是想要更加全面的评估智能体在 minecraft 中的能力,以及与人类到底还有多少差距。

因此,他们参考了已有工作,并提出一个更加全面的评估基准,来测试现有的智能体在 minecraft 中执行各种长序列任务的能力。

课题组还邀请了一些志愿者,要求他们以相同的设定下在 minecraft 中执行各种任务,通过统计任务成功率制定了人类水平基线。通过全面的对比实验,他们所提出的 optimus-1 优于当前所有的智能体,并且在部分任务上接近人类水平的表现。

日前,相关论文以《optimus-1:混合多模态记忆赋能的智能体在长期任务中表现出色》(optimus-1 : hybrid multimodal memory empowered agents excel in long-horizon tasks)为题发在人工智能国际会议—神经信息处理系统会议(neurips 2024,conference on neural information processing systems)[1]。

哈工深团队提出多模态智能体Optimus-1,在MineCraft长序列任务表现接近人类水平 - 天天要闻图 | 相关论文(来源:arxiv)

目前,该团队的现有方案借鉴于人类大脑和小脑的关系:大脑负责任务规划和反思,将复杂任务拆解为一系列可执行的步骤,小脑负责依次执行这些步骤以完成最终任务。接下来,他们计划对“大脑”和“小脑”进行有机的“耦合”,构造一个端到端式的智能体。

参考资料:

1.https://neurips.cc/virtual/2024/poster/94762

2.https://cybertronagent.github.io/optimus-1.github.io/

运营/排版:何晨龙

科学分类资讯推荐

微型肝脏,是未来希望,还是科技乌托邦 - 天天要闻

微型肝脏,是未来希望,还是科技乌托邦

文︱陆弃随着全球器官移植需求持续攀升,传统器官捐献严重不足的问题愈发凸显。美国初创企业LyGenesis推出了一个令人振奋的创新方案:通过将供体肝细胞注射至患者体内淋巴结中培育“微型肝脏”,尝试在患者自身体内制造可替代肝脏功能的器官。
“软黄金”冬虫夏草,你真的了解吗? - 天天要闻

“软黄金”冬虫夏草,你真的了解吗?

冬虫夏草千年传承的滋补良药采药人的寻觅自公元780年起冬虫夏草便以其独特的药用价值被载入史册从《藏本草》到《中国药典》均有记载李时珍更将其誉为“人身不老药”赞其兼具虫之阳刚与草之阴柔成为中药中独一无二的“阴阳同补”圣品享有“东方圣草”“药中
【链博传奇】中国中车:塑轨道之“链”,与世界同行 - 天天要闻

【链博传奇】中国中车:塑轨道之“链”,与世界同行

中国中车集团有限公司(以下简称“中国中车”)是中国轨道交通装备领域的“链”主企业,是全球规模领先、品种齐全、技术一流的高端装备制造商和系统解决方案提供商,清洁能源装备骨干企业。当前,中国中车搭建了世界领先的轨道交通装备产品技术研发平台,构建了完整的轨道交通装备产业体系,开创了轨道交通装备和清洁能源装...
全国AI精英宜宾对决 长江首城创新大赛点燃人工智能新引擎 - 天天要闻

全国AI精英宜宾对决 长江首城创新大赛点燃人工智能新引擎

中新网四川新闻7月11日电(吴平华 杨锦 )智汇长江首城,共享成长价值,10日,由宜宾市科学技术局、宜宾市数据局、宜宾市高铁南片区开发建设指挥部办公室联合主办,北京中关村信息谷资产管理有限责任公司承办的“长江首城宜创汇”协同创新大赛人工智能
地质队日记:塔克拉玛干腹地,沙丘下出现巨大的圆形结构 - 天天要闻

地质队日记:塔克拉玛干腹地,沙丘下出现巨大的圆形结构

记录人:刘哲,西部油气地质勘查第六分队 / 塔里木盆地沙地浅层剖面组成员时间:2023年5月10日地点:塔克拉玛干沙漠腹地,库车–民丰剖面中段那是一次平常不过的地震波剖面测线任务,我们团队负责在塔克拉玛干腹地沿一条南北走向布点,配合卫星图像
电机基础标准:GB/T 14711 标准状态及修订情况 - 天天要闻

电机基础标准:GB/T 14711 标准状态及修订情况

在电气设备领域,中小型旋转电机作为工业生产、日常生活等场景的重要动力设备,其安全性能至关重要。随着电机制造技术的飞速发展,新材料、新工艺不断应用于电机生产;同时,电机的应用场景也日益多样化,在新能源、智能制造等新兴领域的需求持续增长。
月球内部“异常贫瘠”?嫦娥六号月球背面岩石有望揭示谜底 - 天天要闻

月球内部“异常贫瘠”?嫦娥六号月球背面岩石有望揭示谜底

月球正反面为何大不同?月球演化都有哪些关键谜题?国际学术期刊《自然》日前正式发表了中国嫦娥六号月球背面采样任务的又一重大科学成果。该成果为全面了解月球早期的壳-幔演化历史提供了关键信息。该成果由中国科学院国家天文台和中国科学院地质与地球物理研究所共同完成。科研团队对嫦娥六号从月球背面南极-艾特肯盆地带...