- +1
英偉達(dá)用AI完美復(fù)現(xiàn)經(jīng)典《吃豆人》游戲,GAN首次進(jìn)軍游戲設(shè)計(jì)
心緣 智東西
看點(diǎn):NVIDIA用5萬個(gè)回合的游戲訓(xùn)練AI,無需獲知游戲規(guī)則即可完美再現(xiàn)經(jīng)典吃豆人游戲。


剛剛,英偉達(dá)(NVIDIA)發(fā)布首個(gè)用生成式對抗網(wǎng)絡(luò)(GAN)模仿計(jì)算機(jī)游戲引擎的新AI模型GameGAN,它能在對游戲規(guī)則一無所知的前提下,通過觀察人類玩家玩吃豆人游戲,自行領(lǐng)悟游戲規(guī)則,進(jìn)而設(shè)計(jì)出新的游戲關(guān)卡。

GameGAN相關(guān)研究論文將于6月在國際計(jì)算機(jī)視覺與模式識別會(huì)議(CVPR)上發(fā)表。


1980年,日本南宮夢(Namco)公司推出轟動(dòng)全球的經(jīng)典迷宮追蹤街機(jī)游戲《吃豆人》。后來這家公司在2005年和日本萬代公司合并成萬代南宮夢控股公司(BANDAI NAMCO Holdings)。
曾幾何時(shí),吃豆人游戲的愛好者們揣著硬幣,跑到最近的游戲廳里,伴隨著《吃豆人》的原聲音樂,控制吃豆人在紛繁復(fù)雜的迷宮中一邊努力吃到更多的豆豆,一邊避開四種顏色的幽靈。
僅在1981年,美國人就投入了幾十億個(gè)25美分硬幣來玩像吃豆人這樣的投幣游戲,時(shí)間長達(dá)75000小時(shí)。之后數(shù)十年間,這款熱門游戲又出現(xiàn)了個(gè)人電腦、游戲機(jī)和手機(jī)版本。據(jù)不完全統(tǒng)計(jì),20世紀(jì)足足有超過10億人玩過《吃豆人》游戲。
如今,這款被列入世界游戲名作殿堂的經(jīng)典游戲借助AI技術(shù)再度重生。
經(jīng)過5萬個(gè)回合的吃豆人游戲進(jìn)行訓(xùn)練,NVIDIA研究院開發(fā)了強(qiáng)大的新AI模型NVIDIA GameGAN,它能在不用游戲引擎的前提下制作了一個(gè)全功能版本的吃豆人經(jīng)典游戲。
換句話說,即便不了解游戲的基本規(guī)則,該AI模型也能完美再現(xiàn)這款經(jīng)典游戲。

“這是第一個(gè)使用基于神經(jīng)網(wǎng)絡(luò)模擬游戲引擎的研究,”NVIDIA研究人員、該項(xiàng)目的主要作者Seung-Wook Kim說,“我們想看看AI是否僅通過觀看游戲中玩家的行為來學(xué)習(xí)領(lǐng)悟游戲環(huán)境規(guī)則,它也確實(shí)做到了。”
訓(xùn)練GameGAN《吃豆人》游戲數(shù)據(jù)由游戲發(fā)行商萬代南宮夢娛樂旗下的研發(fā)公司萬代南宮夢研究所提供,來自這家公司的Koichiro Tsutsumi說,看到結(jié)果后,他們“相當(dāng)震撼”,“大家無法相信在沒有游戲引擎的情況下,AI可以再現(xiàn)經(jīng)典的吃豆人游戲引擎。”
他認(rèn)為:“這項(xiàng)研究為幫助游戲開發(fā)者加速創(chuàng)造新關(guān)卡布局、角色甚至游戲提供了令人興奮的可能性?!?/p>

據(jù)NVIDIA多倫多研究實(shí)驗(yàn)室主任Sanja Fidler介紹,這個(gè)用吃豆人游戲訓(xùn)練AI的項(xiàng)目大約從8個(gè)月前啟動(dòng)。
用GameGAN版本來生成吃豆人的游戲環(huán)境,靠得不是傳統(tǒng)的游戲引擎,而是神經(jīng)網(wǎng)絡(luò)。
借助萬代南宮夢研究所提供的數(shù)據(jù),Seung-Wook Kim及其同事在多倫多的NVIDIA AI研究實(shí)驗(yàn)室中在NVIDIA DGX系統(tǒng)上用《吃豆人》游戲?qū)ι窠?jīng)網(wǎng)絡(luò)進(jìn)行了總計(jì)幾百萬幀的訓(xùn)練,同時(shí)加入了AI智能體玩吃豆人游戲的按鍵軌跡數(shù)據(jù)。

基于GAN的模型學(xué)習(xí)能創(chuàng)建足以媲美原版游戲內(nèi)容的新內(nèi)容。
無論哪個(gè)游戲,GAN都可以通過從過去的游戲中提取屏幕錄像和玩家按鍵軌跡來學(xué)習(xí)它的規(guī)則。游戲開發(fā)者可通過將原始關(guān)卡的游戲劇本作為訓(xùn)練數(shù)據(jù),借助這樣的工具為現(xiàn)有游戲自動(dòng)設(shè)計(jì)新的等級關(guān)卡。

GameGAN由兩個(gè)相互對抗的神經(jīng)網(wǎng)絡(luò)——一個(gè)生成器和一個(gè)鑒別器組成,包含動(dòng)態(tài)引擎、渲染引擎和內(nèi)存這三個(gè)主要模塊,所有模塊均為經(jīng)端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。
其中動(dòng)態(tài)引擎用于根據(jù)玩家行為變化更新當(dāng)前的狀態(tài),外部內(nèi)存模塊用于在玩家返回到相同位置時(shí)保持場景的長期一致性,渲染引擎根據(jù)動(dòng)態(tài)引擎的狀態(tài)生成輸出圖像。

當(dāng)一個(gè)AI智能體在玩由GAN生成的游戲時(shí),GameGAN會(huì)對智能體的行為做出反應(yīng),實(shí)時(shí)生成游戲環(huán)境框架。如果經(jīng)由多種關(guān)卡或版本的游戲劇本訓(xùn)練,GameGAN甚至可以生成從未見過的游戲關(guān)卡。
AI持續(xù)追蹤虛擬世界,記住已經(jīng)生成的內(nèi)容,以保持幀與幀之間的視覺一致性。
在視覺SLAM中,檢測循環(huán)閉合已經(jīng)是個(gè)挑戰(zhàn),生成一個(gè)完整的迷宮就更困難了。游戲中既有確定性行為也有隨機(jī)性行為,而對隨機(jī)性行為進(jìn)行建模亦是一大難題。

要保持視覺一致性,模型不僅要記住它在隱藏狀態(tài)下生成的每個(gè)場景,還需設(shè)計(jì)一個(gè)損失來強(qiáng)化這種長期一致性。
對此,NVIDIA研究人員提出了一種由神經(jīng)圖靈機(jī)(NTM)驅(qū)動(dòng)的外部內(nèi)存模塊,鼓勵(lì)模型構(gòu)建環(huán)境內(nèi)部映射,使得玩家可以返回到此前訪問過的具有高度視覺一致性的位置。
在《吃豆人》游戲中,統(tǒng)一的迷宮形狀、豆豆、大力丸這些屬于靜態(tài)元素,玩家控制的吃豆人還有四處亂轉(zhuǎn)的幽靈擇屬于動(dòng)態(tài)元素。
研究人員還引入了一個(gè)特定的渲染引擎架構(gòu),通過學(xué)習(xí)生成靜態(tài)元素和動(dòng)態(tài)元素分離的場景,以確保長期的視覺一致性。

GameGAN通過對抗訓(xùn)練來學(xué)習(xí)環(huán)境動(dòng)力學(xué),得到暫時(shí)一致性的模擬結(jié)果。而對于某些需要長期一致性的情況,研究人員提出了時(shí)間循環(huán)損失來將靜態(tài)元素和動(dòng)態(tài)元素分離,以學(xué)習(xí)記住它所生成的內(nèi)容。
研究人員分別在《吃豆人》和VizDoom環(huán)境中對GameGAN等四種模型進(jìn)行定量和定性的綜合評估。
如下圖所示,Action-LSTM生成的幀缺少豆豆等細(xì)節(jié),World Model在保持時(shí)間一致性方面存在困難,有時(shí)會(huì)出現(xiàn)嚴(yán)重的不連續(xù),而GameGAN可以生成一致性模擬。

GameGAN可學(xué)習(xí)簡單和復(fù)雜的關(guān)鍵性游戲規(guī)則。例如,和原版游戲一樣,吃豆人不能穿過迷宮墻壁;它需要四處走動(dòng)吃豆豆,如果吃下一個(gè)大力丸,幽靈就會(huì)變藍(lán)逃竄;當(dāng)吃豆人從一側(cè)離開迷宮,它會(huì)被傳送到迷宮的另一側(cè);如果它撞上了幽靈,屏幕就會(huì)閃一下,然后游戲結(jié)束。
經(jīng)訓(xùn)練的GameGAN模型可以創(chuàng)建各種有趣的靜態(tài)環(huán)境元素和移動(dòng)元素。
由于該模型能將靜態(tài)背景從移動(dòng)的角色中分離出來,它可以吃豆人、幽靈的形象換成你最喜歡的表情符號,也可以將游戲中的迷宮替換成綠籬墻式的迷宮,同時(shí)無需修改原始游戲代碼。

游戲開發(fā)者可以使用這一功能嘗試新的角色創(chuàng)意或游戲主題。

自主機(jī)器人通常是在模擬器中訓(xùn)練的,在與現(xiàn)實(shí)世界中的物體互動(dòng)之前,AI可以先在模擬器中學(xué)習(xí)環(huán)境的規(guī)則。
對于開發(fā)人員來說,創(chuàng)建模擬器是一個(gè)耗時(shí)的過程,他們必須編寫有關(guān)如何與目標(biāo)交互、光線如何在環(huán)境中運(yùn)作等規(guī)則。
模擬器被廣泛用于研發(fā)各類自主機(jī)器,比如學(xué)習(xí)如何抓握和移動(dòng)周圍物體的倉庫機(jī)器人、在人行道上運(yùn)輸食品或藥品的送貨機(jī)器人等。

比方說你在一輛車上安裝了一個(gè)攝像頭,它可以記錄道路環(huán)境或者司機(jī)在做什么,比如轉(zhuǎn)動(dòng)方向盤或者在踩油門。這些數(shù)據(jù)可以用來訓(xùn)練一個(gè)深度學(xué)習(xí)模型,這個(gè)模型能預(yù)測在現(xiàn)實(shí)世界中,如果人類駕駛員或自動(dòng)駕駛汽車發(fā)生像猛踩剎車之類的行動(dòng)后會(huì)產(chǎn)生什么后果。

“我們最終將訓(xùn)練出一個(gè)AI,它僅通過觀看視頻和觀察目標(biāo)在環(huán)境中采取的行動(dòng),就能學(xué)習(xí)模仿駕駛規(guī)則和物理定律?!盢VIDIA多倫多研究實(shí)驗(yàn)室主任Sanja Fidler認(rèn)為,“GameGAN是朝著這個(gè)方向邁出的第一步?!?/p>
目前該AI系統(tǒng)還不能重新創(chuàng)造聲音,不過Sanja Fidler說,未來他們或?qū)⒀a(bǔ)充這一能力。
NVIDIA將在今年晚些時(shí)候在AI PlayGround上發(fā)布其致敬游戲的AI模型,AI PlayGround是一個(gè)可供任何人直接體驗(yàn)研究演示的線上空間。
NVIDIA內(nèi)容和技術(shù)部門副總裁Rev Lebaredian表示,在不遠(yuǎn)的將來,研究團(tuán)隊(duì)將用此方法涉足更多的游戲。
而隨著AI設(shè)計(jì)游戲的能力日臻醇熟,這將為模擬充滿不確定性的真實(shí)世界中的目標(biāo)人物或物體行為提供更高效的編程工具。
(本賬號系網(wǎng)易新聞·網(wǎng)易號“各有態(tài)度”簽約帳號)
閱讀原文
原標(biāo)題:《英偉達(dá)用AI完美復(fù)現(xiàn)經(jīng)典《吃豆人》游戲!GAN首次進(jìn)軍游戲設(shè)計(jì),自學(xué)生成新關(guān)卡》
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




