谷歌DeepMind展示大模型Genie,能从零制作类似《超级马里奥》的游戏

openai 最近公布了其令人惊叹的视频生成模型 sora,打破了文本到视频生成模型的天花板。近日,谷歌 deepmind 也展示了最新的文本到视频游戏的生成模型。

这款名为 genie 的新模型可以接受简短的文字描述、手绘草图或图片,并将其变成一款可玩的电子游戏,游戏风格类似于超级马里奥等经典的 2d 平台游戏。

但游戏的帧数惨不忍睹,只能以每秒一帧的速度运行,而大多数现代游戏通常是每秒 30 到 60 帧。

“这是一项很酷的成果。”加拿大阿尔伯塔大学的人工智能研究员马修·古兹戴尔(matthew guzdial)说。他曾在几年前开发了一个类似的游戏生成器。

genie 使用的训练数据来自于网上找的数百款 2d 平台游戏视频,总时长 3 万小时。

古兹戴尔说,其他人以前也采取过这种方法。他自己的游戏生成器可以从视频中学习创建抽象平台(游戏)。

2020 年,英伟达使用视频数据训练了一个名为 gamegan 的模型,可以生成与吃豆人风格类似的游戏。

但所有这些例子都使用输入动作、控制器上的按键记录和视频片段来训练模型,比如将马里奥跳跃的视频帧与“跳跃”动作(按键)相匹配。用输入动作标记视频片段需要大量工作,这限制了可用的训练数据量。

相比之下,genie 只接受了录像(视频)训练,然后它就能学会,在八个可能的动作中,哪一个会导致视频中的游戏角色改变位置。这可以将无数现有的网络视频转化为潜在的训练数据。

genie 可以根据玩家给出的动作动态地生成游戏的每个新帧。按跳跃键,genie 就会更新图像来显示游戏角色跳跃;按左键,图像就会显示角色向左移动。

游戏一个动作一个动作地进行,每个新帧都是在玩家输入指令时从零生成的。

genie 的未来版本可能会运行得更快。“原则上,没有任何条件限制我们实现每秒 30 帧。”

谷歌 deepmind 的研究科学家蒂姆·洛克塔切尔(tim rocktäschel)说,他领导着这项工作的团队,“genie 使用了许多与当代大型语言模型相同的技术,后者在提高推理速度方面取得了重大进展。”

genie 还学到了一些平台游戏中常见的视觉技巧。许多这种类型的游戏都会用到“视差”,前景向侧面移动的速度比背景快。genie 经常将这种效果添加到它生成的游戏中。

虽然 genie 是一个内部研究项目,不会向公众发布,但古兹戴尔指出,谷歌 deepmind 团队表示,有一天它可能会变成一个游戏制作工具(他本人也在朝着这个方向努力)。“我很想看看他们造出了什么。”他说。

虚拟游乐场

谷歌 deepmind 的研究人员感兴趣的不仅仅是游戏生成。genie 背后的团队致力于研究开放式学习,将人工智能控制的机器人放入虚拟环境中,通过试错(一种被称为强化学习的技术)来解决各种任务。

2021 年,另一个 deepmind 团队开发了一个名为 xland 的虚拟游乐场,机器人在其中学习如何在移动障碍物等简单任务上进行合作。

像 xland 这样的虚拟环境对于训练机器人应对一系列不同的挑战至关重要:经过训练后,它们会更加适应现实世界中的类似场景。视频游戏的例子证明,genie 可以生成这样的虚拟沙盒供机器人训练。

其他人也开发了类似的世界构建工具。例如,google brain 的 david ha 和瑞士 idsia 人工智能实验室的尤尔根·施密杜伯(jürgen schmidhuber)于 2018 年开发了一种工具,在基于游戏的虚拟环境(又名世界模型)中训练机器人。

但是,与 genie 不同的是,这些工具需要包含输入动作的训练数据。

该团队还展示了这种能力在机器人领域的实用性。当 genie 看到真实的机器人手臂操纵各种家用物体的视频时,模型学到了手臂可以做什么动作以及如何控制它。

这意味着,未来的机器人或许可以通过观看视频教程来学习新任务。

施密杜伯表示:“我们很难预测它将创造哪些用例。我们希望,像 genie 这样的项目最终能为人们提供新的工具来表达他们的创造力。”

作者简介:威尔·道格拉斯·海文(will douglas heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(bbc)科技与地缘政治网站 future now 的创始编辑,也是 new scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。

支持:ren

运营/排版:何晨龙