谷歌DeepMind展示大模型Genie,能從零製作類似《超級馬里奧》的遊戲

openai 最近公布了其令人驚嘆的視頻生成模型 sora,打破了文本到視頻生成模型的天花板。近日,谷歌 deepmind 也展示了最新的文本到視頻遊戲的生成模型。

這款名為 genie 的新模型可以接受簡短的文字描述、手繪草圖或圖片,並將其變成一款可玩的電子遊戲,遊戲風格類似於超級馬里奧等經典的 2d 平台遊戲。

但遊戲的幀數慘不忍睹,只能以每秒一幀的速度運行,而大多數現代遊戲通常是每秒 30 到 60 幀。

「這是一項很酷的成果。」加拿大阿爾伯塔大學的人工智慧研究員馬修·古茲戴爾(matthew guzdial)說。他曾在幾年前開發了一個類似的遊戲生成器。

genie 使用的訓練數據來自於網上找的數百款 2d 平台遊戲視頻,總時長 3 萬小時。

古茲戴爾說,其他人以前也採取過這種方法。他自己的遊戲生成器可以從視頻中學習創建抽象平台(遊戲)。

2020 年,英偉達使用視頻數據訓練了一個名為 gamegan 的模型,可以生成與吃豆人風格類似的遊戲。

但所有這些例子都使用輸入動作、控制器上的按鍵記錄和視頻片段來訓練模型,比如將馬里奧跳躍的視頻幀與「跳躍」動作(按鍵)相匹配。用輸入動作標記視頻片段需要大量工作,這限制了可用的訓練數據量。

相比之下,genie 只接受了錄像(視頻)訓練,然後它就能學會,在八個可能的動作中,哪一個會導致視頻中的遊戲角色改變位置。這可以將無數現有的網路視頻轉化為潛在的訓練數據。

genie 可以根據玩家給出的動作動態地生成遊戲的每個新幀。按跳躍鍵,genie 就會更新圖像來顯示遊戲角色跳躍;按左鍵,圖像就會顯示角色向左移動。

遊戲一個動作一個動作地進行,每個新幀都是在玩家輸入指令時從零生成的。

genie 的未來版本可能會運行得更快。「原則上,沒有任何條件限制我們實現每秒 30 幀。」

谷歌 deepmind 的研究科學家蒂姆·洛克塔切爾(tim rocktäschel)說,他領導著這項工作的團隊,「genie 使用了許多與當代大型語言模型相同的技術,後者在提高推理速度方面取得了重大進展。」

genie 還學到了一些平台遊戲中常見的視覺技巧。許多這種類型的遊戲都會用到「視差」,前景向側面移動的速度比背景快。genie 經常將這種效果添加到它生成的遊戲中。

雖然 genie 是一個內部研究項目,不會向公眾發布,但古茲戴爾指出,谷歌 deepmind 團隊表示,有一天它可能會變成一個遊戲製作工具(他本人也在朝著這個方向努力)。「我很想看看他們造出了什麼。」他說。

虛擬遊樂場

谷歌 deepmind 的研究人員感興趣的不僅僅是遊戲生成。genie 背後的團隊致力於研究開放式學習,將人工智慧控制的機器人放入虛擬環境中,通過試錯(一種被稱為強化學習的技術)來解決各種任務。

2021 年,另一個 deepmind 團隊開發了一個名為 xland 的虛擬遊樂場,機器人在其中學習如何在移動障礙物等簡單任務上進行合作。

像 xland 這樣的虛擬環境對於訓練機器人應對一系列不同的挑戰至關重要:經過訓練後,它們會更加適應現實世界中的類似場景。視頻遊戲的例子證明,genie 可以生成這樣的虛擬沙盒供機器人訓練。

其他人也開發了類似的世界構建工具。例如,google brain 的 david ha 和瑞士 idsia 人工智慧實驗室的尤爾根·施密杜伯(jürgen schmidhuber)於 2018 年開發了一種工具,在基於遊戲的虛擬環境(又名世界模型)中訓練機器人。

但是,與 genie 不同的是,這些工具需要包含輸入動作的訓練數據。

該團隊還展示了這種能力在機器人領域的實用性。當 genie 看到真實的機器人手臂操縱各種家用物體的視頻時,模型學到了手臂可以做什麼動作以及如何控制它。

這意味著,未來的機器人或許可以通過觀看視頻教程來學習新任務。

施密杜伯表示:「我們很難預測它將創造哪些用例。我們希望,像 genie 這樣的項目最終能為人們提供新的工具來表達他們的創造力。」

作者簡介:威爾·道格拉斯·海文(will douglas heaven)是《麻省理工科技評論》人工智慧欄目的高級編輯,他在這裡報道新的研究、新興趨勢及其背後的人。此前,他是英國廣播公司(bbc)科技與地緣政治網站 future now 的創始編輯,也是 new scientist 雜誌的首席技術編輯。他擁有英國倫敦帝國理工學院計算機科學博士學位,深諳與機器人合作的體驗。

支持:ren

運營/排版:何晨龍