將遊戲變成科學試驗場,「王者峽谷」成為另類戰場

2022年06月29日04:23:15 遊戲 1642
將遊戲變成科學試驗場,「王者峽谷」成為另類戰場 - 天天要聞

推薦導語:遊戲和人工智能的結合,將會讓人們進一步更新對遊戲的認識。它也同時意味着更多輻射現實的可能,AI在程序里的一小步,可能會成為現實中的一大步。

沒有哪一場遊戲比賽的決賽能這般安靜。選手們沒有一句交流,只是默默觀看,記錄。兩個小時後,主辦方宣布,上場對弈結束,清華大學計算機系的學生們從23支參賽隊伍中脫穎而出。

但準確地說,對戰的選手不是這些學生——他們甚至沒在屏幕前做任何操作。真正在操作遊戲角色的,是學生們訓練了上百萬次的AI。

此前的90天,這些來自國內頂尖高校的青年極客利用「開悟」AI開放研究平台的算法、算力等資源,訓練出可以操作王者榮耀的AI,不停對戰,角逐最後的冠軍。

將遊戲變成科學試驗場,「王者峽谷」成為另類戰場 - 天天要聞

王者榮耀》AI測試試驗場

比賽的準確名字叫「開悟多智能體強化學習大賽」,已是第二次舉辦。比起結果,不論是主辦方還是參賽者,都更看重比賽的過程。他們的目的是「以賽代研」:對戰,迭代,以研發出更好更強的AI智能體。

此次比賽是基於王者榮耀這個載體。這款遊戲重協作,複雜度極高,在5V5對局中,玩家的動作狀態空間高達10的20000次方,甚至超過整個宇宙的原子總數(10的80次方)。它是訓練多智能體算法的天然試驗田。

多智能體算法是人工智能的前沿領域。以往,因為研究場景稀缺、算法測試困難、算力昂貴等問題,高校AI研究的試驗田一直受限。為了拓寬它邊界,推動人工智能研究的發展,今年,開悟平台還與19所大學合作開發了創新課程,向更多的AI研究者和專業學生開放。

AI對抗AI

在訓練AI打王者榮耀和自己玩這兩件事上,冠軍隊隊長陳華玉有着截然不同的勝負欲。課餘放鬆自己打兩局,輸了贏了他都不在意。但要論培育AI去取得更好成績,他是「雞娃」最狠的選手之一。

選手們把AI比作孩子,一開始,它初生,像張白紙,什麼也不會,在人的不斷訓練下,逐漸進化出各種能力。初賽中,陳華玉和隊友就讓自己的AI和主辦方提供的基線AI進行了4萬多場對戰,更新了上百個模型。他們決賽的對手,電子科技大學「雞娃」更狠,對戰了6萬多場。

將遊戲變成科學試驗場,「王者峽谷」成為另類戰場 - 天天要聞

電子科大的同學正在進行AI代碼編寫

和人類玩家一樣,AI要通過反覆的訓練和對戰來學習。人類訓練的是技戰術熟練度,而AI則要在海量的嘗試中,通過行為反饋優化自身策略。

90天的訓練中,陳華玉的好勝心得到的最大滿足,是AI學會「蹲草叢」的那一刻。即使目前它還蹲得不夠徹底,只是在路過草叢時多停留了幾秒。「蹲草叢」是人類玩家在遊戲中隱藏蹤跡的誘敵行為,很簡單,但AI不是天生就會。它能學會,看起來具備了一絲「靈性」,也說明它變得足夠聰明——在上萬次的訓練中,它學習到了蹲草叢能給予它視野、先手等優勢,從而提升勝率。

AI學習人的這一小步,被他們看成是人工智能的一大步。一個簡單的蹲草叢動作,也許需要模型,背後涉及的宏觀戰略決策與微觀數值計算能力,往往需要消耗大量的精力來驗證測試。

訓練AI的樂趣在於未知。「機器強化學習是一種類似於黑盒的訓練。作為研究者很難明確知道是算法何處不足導致出現問題。」這就使得學生們訓練的AI「既強又弱」。一方面,它們做決策迅速又準確,結束一局比賽比普通玩家更迅疾;另一面,遊戲角色可能仍會傻傻地撞牆。而當它訓練了上百小時學習某種能力時,也會發生某項能力突然急速下降,甚至崩解的情況。

陳華玉一直不知道怎麼解決這個問題。直到賽後,他聽到電子科技大學團隊的分享,得到了不少啟發。對方分享了一套能把智能體的學習過程穩定下來的方法。

陳華玉很佩服這個對手。決賽一度很膠着,他們最終僅以幾分的微弱優勢險勝。膠着說明兩個AI能力已經不相上下,能贏只是概率問題。「我們只是底子比較厚,勉強撐住了。」他招攬了一批厲害的同學,短長互補,使他們的算法更容易讓AI從大數據中學習,比起其他隊伍對數據的使用效率更高。

「這個比賽的意義不在於名次高低。」電子科技大學隊的指導老師謝寧認為,開悟比賽最重要的價值,是讓學生知道原來AI可以達到這樣的能力。它的底層技術是強化學習,在同等訓練資源下,算法模型設計越優秀,能夠訓練出的AI決策智能就越強大,學生們在比賽中充分訓練了強化學習、神經網絡算法等方面的科研能力。

大學裏的新課

得知「開悟」計劃和19所高校合作開課免費開放技術研究資源時,很多老師和謝寧一樣第一時間響應。對於他們,一款將場景、算力、算法有效聯通的人工智能研究平台,是一場及時雨。

算法、場景、算力是AI研究的核心,其中算法研究是很多高校的主攻領域。但因為算力受限,圍繞大規模計算與業務場景展開的研究,常常束手縛腳。「『開悟』是獨一份的。國內外都沒有其他企業有類似的開源,會分享算力資源。」陳華玉算了一筆賬,如果要在自己的實驗室里訓練王者AI,他得把那裡的四五十台電腦的算力都彙集起來。

學生利用開悟平台進行AI研究

以往學生們要訓練多智能體AI,有條件的會到開源平台上下載遊戲資源,自己編寫程序練習,但願意開源的遊戲場景複雜度一般很低。老師們布置作業,也只能布置算力最低、難度最小的作業。這是為了教學公平。學生們經濟水平不同,購置的電腦硬件條件不一。

謝寧為本科生開設的王者AI選修課將在下學期開課,選課時有200個學生一股腦湧來,熱度非凡。他只能布置了一道課程設計的報告題,從200個學生中遴選出36人。

一些參加過開悟比賽的選手也自覺變成課程進入高校的紐帶。在導師的「遊戲AI中的算法」選修課中,北大博士生魯雲龍負責指導王者AI部分的助教。

王者AI的相關作業在這門課程里佔分數比最大,這些00後學生也表現出了很大的興趣。這款流行遊戲伴隨着這一代人長大,能將學到的算法訓練打遊戲的AI,是新鮮的體驗。

在指導學生們的兩個月里,魯雲龍把在比賽中學到的建立模型、訓練AI的經驗都教給他們。學生們的表現讓他驚喜。在提交的作業中,他發現有學生訓練的AI和騰訊基線AI的level4對抗,打贏的概率已經達到了五五開。這意味着如果這個學生參與當年那屆比賽,已經能達到斬獲名次的水平。

王者AI進入大學校園,也給魯雲龍這樣的青年學者帶來了信心。課程的升級讓他更堅定,自己所研究的強化學習的算法足以用在更複雜的遊戲環境中。以前受限於算力不足,不能將自己一手打造的智能體應用到複雜的遊戲訓練,水平究竟幾何難以驗證。但現在,他少了很多迷茫。

謝寧也覺察到了變化。他的課題組把王者AI當成了日常科研項目後,研究生們的興趣明顯升高了。以前,他們接觸不到算力,沒有直接的實感,而在如今「開悟」開放的「窗口期」,即使是周末和期末,他們也會抓緊訓練和實驗,來驗證自己的技術理論。

「學生對遊戲的認識比我們更成熟。」他有時想,這種親近感或許是天生的,刻在一代人的基因中。有學生告訴謝寧,自己的父母就是遊戲中相識。謝寧很鼓勵學生參加開悟比賽。他的學生們主動傳幫帶,第一屆參加的學生將自己的代碼筆記分享給師弟師妹。未來的課程中,他則希望更強調實戰——舉行王者AI比賽校園賽或許是個好主意,「以賽代研」,能產出更多實打實的結果。

把遊戲變成科學試驗場

負責王者AI應用拓展項目後,王者AI應用拓展負責人老劉的日程表上,多了很多大學老師在乾的事兒。他和老師們一起備課,討論怎麼分解知識點,把王者AI里工程化應用的知識講得讓本科生能聽懂。平時他也要讀很多論文,更新人工智能的知識體系,將多智能學習的新興技術體現在「開悟」平台里,讓學生能在平時的作業、考試環節,落地整體的人工智能。

一開始,高校算力的局促着實讓他吃驚。學生電腦的CPU只有16核,GPU只有32核,還多是windows系統,根本不能支持開悟平台運轉。項目團隊因此發動了25個程序員,設計了實驗平台客戶端,讓學生們能更加高效地學習。

「在人工智能的趨勢發展中提供一些幫助,讓學生學習的效率更高一些,老師的知識傳達效率更高一點,也讓學生在未來工作中做類似的工程化應用時,少走一些彎路。」每次學生們喊他「劉老師」,都讓老劉覺得這份工作又創造了一點價值。人工智能模型的研究和訓練,往往需要無數次的迭代和試錯。小步快走的積累,才能引發質變。開悟比賽和課程,一步步探索,都是為了完善AI人才培養體系。當越來越多科技青年參與AI創新,人工智能的發展浪潮中才會不斷湧現創新者和引領者。

謝寧的研究團隊目前正在研究如何用開悟平台模擬火災疏散等場景,嘗試解決應急系統和社會治理領域的一些新問題。在他看來,「這意味着遊戲對其他行業的賦能」。遊戲與AI的結合,在未來將有廣闊的前景。如果AI能在王者榮耀的複雜遊戲環境模擬激烈對抗,像人一樣學會決策,那麼其中大規模協同的算法,也可以遷移到多變、複雜的真實環境中。

這也是開悟項目的初衷。他們希望可以聯動高校利用王者榮耀的複雜環境,將遊戲變成科學試驗場,推動用人工智能創造各種可能性。他們和西南交通大學的智慧交通的合作即將開啟。未來,在王者榮耀的虛擬環境中,「英雄」將被模擬賦予交通燈般的角色。經過一系列複雜程序的轉化,他們的紅黃綠燈就是「一二三技能」,可以用於實驗什麼時候「放技能」能讓交通效率最優。

未來,王者峽谷里還將出現更多類似的現實模擬場景,覆蓋醫療、工業、農業、交通等行業。魯雲龍設想在未來的研究中讓「英雄」模擬自動駕駛。在虛擬環境里試錯,訓練平穩不出事故的智能體,把中間產生的算法運用到實際中,「給其他領域提供低成本試錯的場所」。

「我們其實是在遊戲中研究這個世界的運轉規律。」騰訊AI Lab「開悟」平台技術總監超哥認為,多人競技對抗類遊戲遊戲環境中還有大量仍待攻克的難題,只有讓更多有興趣的高校和學者參與進來,共同探討和研究這些難題,整個產學研共同體才可以再往前進一步。

在AI學界,開悟平台的影響力不斷在擴大。第一屆比賽後,海外高校陸續有學生報名參加。謝寧希望有越來越多的人知曉它。遊戲和人工智能的結合,將會讓人們進一步更新對遊戲的認識。它也同時意味着更多輻射現實的可能,謝寧感到,那些在遊戲峽谷中活躍着的角色由此被賦予了更現實的「意義」。而AI在程序里的一小步,可能會成為現實中的一大步。

文章來源:光明網《讓AI學會遊戲,高校科研的新戰場》

轉載開白請聯繫:jhm9 9 9 9 9 8

行業交流/爆料/商務合作/投稿:添加微信zhizuen9 5

遊戲分類資訊推薦

買到高性價比遊戲主機原來如此簡單 寧美再度開啟火熱促銷 - 天天要聞

買到高性價比遊戲主機原來如此簡單 寧美再度開啟火熱促銷

對於眾多遊戲玩家來說,一台性能出色且高性價比的台式電腦是不可或缺的裝備。寧美作為國內知名電商主機品牌,當下也為玩家推出了眾多配置的主機供玩家選擇,此次我們就為大家推薦兩款性價比不錯的配置以此來參考。英特爾酷睿i5-12400F處理器+英偉達GeForce RTX 4060顯卡(京東寧美官方旗艦店)這是寧美龍魂主機中當下性價...
關於新疆解說調侃張鎮麟被禁播半年,該如何評價? - 天天要聞

關於新疆解說調侃張鎮麟被禁播半年,該如何評價?

在新疆和遼寧總決賽G2的比賽中,第二節張鎮麟出現傳球失誤,期間新疆解說依力調侃張鎮麟這球不會是傳給他媽媽的吧?這句話引起熱議;之後解說依力公開致歉,本以為該事情告一段落,結果本人在社媒上表示「因為此....
星之破曉策劃放大招!全新模式星魂戰場上線,48人同地圖競技 - 天天要聞

星之破曉策劃放大招!全新模式星魂戰場上線,48人同地圖競技

就在近期,王者榮耀星之破曉體驗服上線了一個新的模式,這個模式叫做星魂戰場。對於這個模式,相信很多玩家都非常好奇,作為一個有幸獲得破曉體驗服資格的玩家,今天就和大家一起聊一聊這個新的模式。一、模式玩法首先是很多玩家最關心的問題,那就是這個模式是什麼玩法。
當年GAL吧的全民老婆,可以在Steam上狠狠地品鑒了 - 天天要聞

當年GAL吧的全民老婆,可以在Steam上狠狠地品鑒了

歡迎關注,獲取更多遊戲評測資訊,入手與否不再猶豫~喜歡的不妨點個贊唷(๑•̀ㅂ•́)و文:悗綾 | 編輯:Rin『神作』《Irotoridori No Sekai - The Colorful World(五彩斑斕的世界)》是由FAVORITE社製作,NekoNyanSoft代理
魔獸探索服P4上線或與國服開服同步,60級將有全新終極內容 - 天天要聞

魔獸探索服P4上線或與國服開服同步,60級將有全新終極內容

我們現在可以確認,暴雪魔獸組目前把主要精力用於魔獸世界熊貓人幻彩和魔獸世界CTM懷舊服,因此備受喜愛的魔獸世界探索服(PLUS)的開放進度被耽誤了,或者說被迫讓路了,根據近期的設計師爆料和最新的藍貼消息,魔獸世界探索服P4階段很有可能再多等一個月。
暴雪終於開竅了!魔獸世界新玩法口碑爆棚,真正的純福利版本 - 天天要聞

暴雪終於開竅了!魔獸世界新玩法口碑爆棚,真正的純福利版本

小探一直認為暴雪設計師不懂魔獸世界玩家到底想要什麼,難道大家真的喜歡死磕那些難度爆炸的M團本嗎?在暴雪和首殺團隊的螺旋鬥爭中,M團本越來越難,絕大部分魔獸玩家已經放棄打團了。在暴雪沾沾自喜終於用足夠的難度卡住了首殺團之後,卻沒有發現過高的遊戲門檻讓魔獸世界再也沒有新人了。