谷歌DeepMind展示大模型Genie，能从零制作类似《超级马里奥》的游戏

分类：游戏

浏览数：2439

2024-03-16

openai 最近公布了其令人惊叹的视频生成模型 sora，打破了文本到视频生成模型的天花板。近日，谷歌 deepmind 也展示了最新的文本到视频游戏的生成模型。

这款名为 genie 的新模型可以接受简短的文字描述、手绘草图或图片，并将其变成一款可玩的电子游戏，游戏风格类似于超级马里奥等经典的 2d 平台游戏。

但游戏的帧数惨不忍睹，只能以每秒一帧的速度运行，而大多数现代游戏通常是每秒 30 到 60 帧。

“这是一项很酷的成果。”加拿大阿尔伯塔大学的人工智能研究员马修·古兹戴尔（matthew guzdial）说。他曾在几年前开发了一个类似的游戏生成器。

genie 使用的训练数据来自于网上找的数百款 2d 平台游戏视频，总时长 3 万小时。

古兹戴尔说，其他人以前也采取过这种方法。他自己的游戏生成器可以从视频中学习创建抽象平台（游戏）。

2020 年，英伟达使用视频数据训练了一个名为 gamegan 的模型，可以生成与吃豆人风格类似的游戏。

但所有这些例子都使用输入动作、控制器上的按键记录和视频片段来训练模型，比如将马里奥跳跃的视频帧与“跳跃”动作（按键）相匹配。用输入动作标记视频片段需要大量工作，这限制了可用的训练数据量。

相比之下，genie 只接受了录像（视频）训练，然后它就能学会，在八个可能的动作中，哪一个会导致视频中的游戏角色改变位置。这可以将无数现有的网络视频转化为潜在的训练数据。

genie 可以根据玩家给出的动作动态地生成游戏的每个新帧。按跳跃键，genie 就会更新图像来显示游戏角色跳跃；按左键，图像就会显示角色向左移动。

游戏一个动作一个动作地进行，每个新帧都是在玩家输入指令时从零生成的。

genie 的未来版本可能会运行得更快。“原则上，没有任何条件限制我们实现每秒 30 帧。”

谷歌 deepmind 的研究科学家蒂姆·洛克塔切尔（tim rocktäschel）说，他领导着这项工作的团队，“genie 使用了许多与当代大型语言模型相同的技术，后者在提高推理速度方面取得了重大进展。”

genie 还学到了一些平台游戏中常见的视觉技巧。许多这种类型的游戏都会用到“视差”，前景向侧面移动的速度比背景快。genie 经常将这种效果添加到它生成的游戏中。

虽然 genie 是一个内部研究项目，不会向公众发布，但古兹戴尔指出，谷歌 deepmind 团队表示，有一天它可能会变成一个游戏制作工具（他本人也在朝着这个方向努力）。“我很想看看他们造出了什么。”他说。

虚拟游乐场

谷歌 deepmind 的研究人员感兴趣的不仅仅是游戏生成。genie 背后的团队致力于研究开放式学习，将人工智能控制的机器人放入虚拟环境中，通过试错（一种被称为强化学习的技术）来解决各种任务。

2021 年，另一个 deepmind 团队开发了一个名为 xland 的虚拟游乐场，机器人在其中学习如何在移动障碍物等简单任务上进行合作。

像 xland 这样的虚拟环境对于训练机器人应对一系列不同的挑战至关重要：经过训练后，它们会更加适应现实世界中的类似场景。视频游戏的例子证明，genie 可以生成这样的虚拟沙盒供机器人训练。

其他人也开发了类似的世界构建工具。例如，google brain 的 david ha 和瑞士 idsia 人工智能实验室的尤尔根·施密杜伯（jürgen schmidhuber）于 2018 年开发了一种工具，在基于游戏的虚拟环境（又名世界模型）中训练机器人。

但是，与 genie 不同的是，这些工具需要包含输入动作的训练数据。

该团队还展示了这种能力在机器人领域的实用性。当 genie 看到真实的机器人手臂操纵各种家用物体的视频时，模型学到了手臂可以做什么动作以及如何控制它。

这意味着，未来的机器人或许可以通过观看视频教程来学习新任务。

施密杜伯表示：“我们很难预测它将创造哪些用例。我们希望，像 genie 这样的项目最终能为人们提供新的工具来表达他们的创造力。”

作者简介：威尔·道格拉斯·海文（will douglas heaven）是《麻省理工科技评论》人工智能栏目的高级编辑，他在这里报道新的研究、新兴趋势及其背后的人。此前，他是英国广播公司（bbc）科技与地缘政治网站 future now 的创始编辑，也是 new scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位，深谙与机器人合作的体验。

支持：ren

运营/排版：何晨龙

游戏分类资讯推荐