谷歌DeepMind展示大模型Genie，能從零製作類似《超級馬里奧》的遊戲

分類：遊戲

瀏覽數：2439

2024-03-16

openai 最近公布了其令人驚嘆的視頻生成模型 sora，打破了文本到視頻生成模型的天花板。近日，谷歌 deepmind 也展示了最新的文本到視頻遊戲的生成模型。

這款名為 genie 的新模型可以接受簡短的文字描述、手繪草圖或圖片，並將其變成一款可玩的電子遊戲，遊戲風格類似於超級馬里奧等經典的 2d 平台遊戲。

但遊戲的幀數慘不忍睹，只能以每秒一幀的速度運行，而大多數現代遊戲通常是每秒 30 到 60 幀。

「這是一項很酷的成果。」加拿大阿爾伯塔大學的人工智慧研究員馬修·古茲戴爾（matthew guzdial）說。他曾在幾年前開發了一個類似的遊戲生成器。

genie 使用的訓練數據來自於網上找的數百款 2d 平台遊戲視頻，總時長 3 萬小時。

古茲戴爾說，其他人以前也採取過這種方法。他自己的遊戲生成器可以從視頻中學習創建抽象平台（遊戲）。

2020 年，英偉達使用視頻數據訓練了一個名為 gamegan 的模型，可以生成與吃豆人風格類似的遊戲。

但所有這些例子都使用輸入動作、控制器上的按鍵記錄和視頻片段來訓練模型，比如將馬里奧跳躍的視頻幀與「跳躍」動作（按鍵）相匹配。用輸入動作標記視頻片段需要大量工作，這限制了可用的訓練數據量。

相比之下，genie 只接受了錄像（視頻）訓練，然後它就能學會，在八個可能的動作中，哪一個會導致視頻中的遊戲角色改變位置。這可以將無數現有的網路視頻轉化為潛在的訓練數據。

genie 可以根據玩家給出的動作動態地生成遊戲的每個新幀。按跳躍鍵，genie 就會更新圖像來顯示遊戲角色跳躍；按左鍵，圖像就會顯示角色向左移動。

遊戲一個動作一個動作地進行，每個新幀都是在玩家輸入指令時從零生成的。

genie 的未來版本可能會運行得更快。「原則上，沒有任何條件限制我們實現每秒 30 幀。」

谷歌 deepmind 的研究科學家蒂姆·洛克塔切爾（tim rocktäschel）說，他領導著這項工作的團隊，「genie 使用了許多與當代大型語言模型相同的技術，後者在提高推理速度方面取得了重大進展。」

genie 還學到了一些平台遊戲中常見的視覺技巧。許多這種類型的遊戲都會用到「視差」，前景向側面移動的速度比背景快。genie 經常將這種效果添加到它生成的遊戲中。

雖然 genie 是一個內部研究項目，不會向公眾發布，但古茲戴爾指出，谷歌 deepmind 團隊表示，有一天它可能會變成一個遊戲製作工具（他本人也在朝著這個方向努力）。「我很想看看他們造出了什麼。」他說。

虛擬遊樂場

谷歌 deepmind 的研究人員感興趣的不僅僅是遊戲生成。genie 背後的團隊致力於研究開放式學習，將人工智慧控制的機器人放入虛擬環境中，通過試錯（一種被稱為強化學習的技術）來解決各種任務。

2021 年，另一個 deepmind 團隊開發了一個名為 xland 的虛擬遊樂場，機器人在其中學習如何在移動障礙物等簡單任務上進行合作。

像 xland 這樣的虛擬環境對於訓練機器人應對一系列不同的挑戰至關重要：經過訓練後，它們會更加適應現實世界中的類似場景。視頻遊戲的例子證明，genie 可以生成這樣的虛擬沙盒供機器人訓練。

其他人也開發了類似的世界構建工具。例如，google brain 的 david ha 和瑞士 idsia 人工智慧實驗室的尤爾根·施密杜伯（jürgen schmidhuber）於 2018 年開發了一種工具，在基於遊戲的虛擬環境（又名世界模型）中訓練機器人。

但是，與 genie 不同的是，這些工具需要包含輸入動作的訓練數據。

該團隊還展示了這種能力在機器人領域的實用性。當 genie 看到真實的機器人手臂操縱各種家用物體的視頻時，模型學到了手臂可以做什麼動作以及如何控制它。

這意味著，未來的機器人或許可以通過觀看視頻教程來學習新任務。

施密杜伯表示：「我們很難預測它將創造哪些用例。我們希望，像 genie 這樣的項目最終能為人們提供新的工具來表達他們的創造力。」

作者簡介：威爾·道格拉斯·海文（will douglas heaven）是《麻省理工科技評論》人工智慧欄目的高級編輯，他在這裡報道新的研究、新興趨勢及其背後的人。此前，他是英國廣播公司（bbc）科技與地緣政治網站 future now 的創始編輯，也是 new scientist 雜誌的首席技術編輯。他擁有英國倫敦帝國理工學院計算機科學博士學位，深諳與機器人合作的體驗。

支持：ren

運營/排版：何晨龍

遊戲分類資訊推薦