下載客戶端

登錄

英偉達(dá)用AI完美復(fù)現(xiàn)經(jīng)典《吃豆人》游戲，GAN首次進(jìn)軍游戲設(shè)計(jì)

2020-05-23 19:57

來源：澎湃新聞·澎湃號·湃客

心緣智東西

看點(diǎn)：NVIDIA用5萬個(gè)回合的游戲訓(xùn)練AI，無需獲知游戲規(guī)則即可完美再現(xiàn)經(jīng)典吃豆人游戲。

智東西5月22日報(bào)道，復(fù)古經(jīng)典游戲《吃豆人》在人工智能（AI）的幫助下重生了！

剛剛，英偉達(dá)（NVIDIA）發(fā)布首個(gè)用生成式對抗網(wǎng)絡(luò)（GAN）模仿計(jì)算機(jī)游戲引擎的新AI模型GameGAN，它能在對游戲規(guī)則一無所知的前提下，通過觀察人類玩家玩吃豆人游戲，自行領(lǐng)悟游戲規(guī)則，進(jìn)而設(shè)計(jì)出新的游戲關(guān)卡。

GAN，這個(gè)曾因“換臉”而聞名世界的神經(jīng)網(wǎng)絡(luò)，終于進(jìn)軍游戲設(shè)計(jì)領(lǐng)域。而復(fù)現(xiàn)游戲只是第一步，這種能力不僅可以被游戲開發(fā)者用來自動(dòng)生成新的游戲等級關(guān)卡，也可以被AI研究者用來更便捷地開發(fā)訓(xùn)練自主機(jī)器人和自動(dòng)駕駛的模擬器系統(tǒng)。

GameGAN相關(guān)研究論文將于6月在國際計(jì)算機(jī)視覺與模式識別會(huì)議（CVPR）上發(fā)表。

用5萬個(gè)回合的吃豆人游戲訓(xùn)練

1980年，日本南宮夢（Namco）公司推出轟動(dòng)全球的經(jīng)典迷宮追蹤街機(jī)游戲《吃豆人》。后來這家公司在2005年和日本萬代公司合并成萬代南宮夢控股公司（BANDAI NAMCO Holdings）。

曾幾何時(shí)，吃豆人游戲的愛好者們揣著硬幣，跑到最近的游戲廳里，伴隨著《吃豆人》的原聲音樂，控制吃豆人在紛繁復(fù)雜的迷宮中一邊努力吃到更多的豆豆，一邊避開四種顏色的幽靈。

僅在1981年，美國人就投入了幾十億個(gè)25美分硬幣來玩像吃豆人這樣的投幣游戲，時(shí)間長達(dá)75000小時(shí)。之后數(shù)十年間，這款熱門游戲又出現(xiàn)了個(gè)人電腦、游戲機(jī)和手機(jī)版本。據(jù)不完全統(tǒng)計(jì)，20世紀(jì)足足有超過10億人玩過《吃豆人》游戲。

如今，這款被列入世界游戲名作殿堂的經(jīng)典游戲借助AI技術(shù)再度重生。

經(jīng)過5萬個(gè)回合的吃豆人游戲進(jìn)行訓(xùn)練，NVIDIA研究院開發(fā)了強(qiáng)大的新AI模型NVIDIA GameGAN，它能在不用游戲引擎的前提下制作了一個(gè)全功能版本的吃豆人經(jīng)典游戲。

換句話說，即便不了解游戲的基本規(guī)則，該AI模型也能完美再現(xiàn)這款經(jīng)典游戲。

▲玩家玩由GAN制作的《吃豆人》游戲

“這是第一個(gè)使用基于神經(jīng)網(wǎng)絡(luò)模擬游戲引擎的研究，”NVIDIA研究人員、該項(xiàng)目的主要作者Seung-Wook Kim說，“我們想看看AI是否僅通過觀看游戲中玩家的行為來學(xué)習(xí)領(lǐng)悟游戲環(huán)境規(guī)則，它也確實(shí)做到了。”

訓(xùn)練GameGAN《吃豆人》游戲數(shù)據(jù)由游戲發(fā)行商萬代南宮夢娛樂旗下的研發(fā)公司萬代南宮夢研究所提供，來自這家公司的Koichiro Tsutsumi說，看到結(jié)果后，他們“相當(dāng)震撼”，“大家無法相信在沒有游戲引擎的情況下，AI可以再現(xiàn)經(jīng)典的吃豆人游戲引擎。”

他認(rèn)為：“這項(xiàng)研究為幫助游戲開發(fā)者加速創(chuàng)造新關(guān)卡布局、角色甚至游戲提供了令人興奮的可能性?！?/p>

設(shè)計(jì)游戲新關(guān)卡，還能換吃豆人形象

據(jù)NVIDIA多倫多研究實(shí)驗(yàn)室主任Sanja Fidler介紹，這個(gè)用吃豆人游戲訓(xùn)練AI的項(xiàng)目大約從8個(gè)月前啟動(dòng)。

用GameGAN版本來生成吃豆人的游戲環(huán)境，靠得不是傳統(tǒng)的游戲引擎，而是神經(jīng)網(wǎng)絡(luò)。

借助萬代南宮夢研究所提供的數(shù)據(jù)，Seung-Wook Kim及其同事在多倫多的NVIDIA AI研究實(shí)驗(yàn)室中在NVIDIA DGX系統(tǒng)上用《吃豆人》游戲?qū)ι窠?jīng)網(wǎng)絡(luò)進(jìn)行了總計(jì)幾百萬幀的訓(xùn)練，同時(shí)加入了AI智能體玩吃豆人游戲的按鍵軌跡數(shù)據(jù)。

▲該研究的數(shù)據(jù)集樣本，訓(xùn)練數(shù)據(jù)由如紅色方框所示的部分狀態(tài)組成（左：吃豆人，中：吃豆人迷宮，右：VizDoom）

基于GAN的模型學(xué)習(xí)能創(chuàng)建足以媲美原版游戲內(nèi)容的新內(nèi)容。

無論哪個(gè)游戲，GAN都可以通過從過去的游戲中提取屏幕錄像和玩家按鍵軌跡來學(xué)習(xí)它的規(guī)則。游戲開發(fā)者可通過將原始關(guān)卡的游戲劇本作為訓(xùn)練數(shù)據(jù)，借助這樣的工具為現(xiàn)有游戲自動(dòng)設(shè)計(jì)新的等級關(guān)卡。

▲人類玩家和GameGAN一起玩官方版本《吃豆人》游戲

GameGAN由兩個(gè)相互對抗的神經(jīng)網(wǎng)絡(luò)——一個(gè)生成器和一個(gè)鑒別器組成，包含動(dòng)態(tài)引擎、渲染引擎和內(nèi)存這三個(gè)主要模塊，所有模塊均為經(jīng)端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

其中動(dòng)態(tài)引擎用于根據(jù)玩家行為變化更新當(dāng)前的狀態(tài)，外部內(nèi)存模塊用于在玩家返回到相同位置時(shí)保持場景的長期一致性，渲染引擎根據(jù)動(dòng)態(tài)引擎的狀態(tài)生成輸出圖像。

▲GameGAN由三個(gè)主要模塊組成

當(dāng)一個(gè)AI智能體在玩由GAN生成的游戲時(shí)，GameGAN會(huì)對智能體的行為做出反應(yīng)，實(shí)時(shí)生成游戲環(huán)境框架。如果經(jīng)由多種關(guān)卡或版本的游戲劇本訓(xùn)練，GameGAN甚至可以生成從未見過的游戲關(guān)卡。

AI持續(xù)追蹤虛擬世界，記住已經(jīng)生成的內(nèi)容，以保持幀與幀之間的視覺一致性。

在視覺SLAM中，檢測循環(huán)閉合已經(jīng)是個(gè)挑戰(zhàn)，生成一個(gè)完整的迷宮就更困難了。游戲中既有確定性行為也有隨機(jī)性行為，而對隨機(jī)性行為進(jìn)行建模亦是一大難題。

▲左圖為GameGAN正確繪制出迷宮邊界，右圖為沒有正確閉合循環(huán)的失敗案例

要保持視覺一致性，模型不僅要記住它在隱藏狀態(tài)下生成的每個(gè)場景，還需設(shè)計(jì)一個(gè)損失來強(qiáng)化這種長期一致性。

對此，NVIDIA研究人員提出了一種由神經(jīng)圖靈機(jī)（NTM）驅(qū)動(dòng)的外部內(nèi)存模塊，鼓勵(lì)模型構(gòu)建環(huán)境內(nèi)部映射，使得玩家可以返回到此前訪問過的具有高度視覺一致性的位置。

在《吃豆人》游戲中，統(tǒng)一的迷宮形狀、豆豆、大力丸這些屬于靜態(tài)元素，玩家控制的吃豆人還有四處亂轉(zhuǎn)的幽靈擇屬于動(dòng)態(tài)元素。

研究人員還引入了一個(gè)特定的渲染引擎架構(gòu)，通過學(xué)習(xí)生成靜態(tài)元素和動(dòng)態(tài)元素分離的場景，以確保長期的視覺一致性。

▲GameGAN如何在VizDoom和《吃豆人》游戲中將靜態(tài)和動(dòng)態(tài)元素分離

GameGAN通過對抗訓(xùn)練來學(xué)習(xí)環(huán)境動(dòng)力學(xué)，得到暫時(shí)一致性的模擬結(jié)果。而對于某些需要長期一致性的情況，研究人員提出了時(shí)間循環(huán)損失來將靜態(tài)元素和動(dòng)態(tài)元素分離，以學(xué)習(xí)記住它所生成的內(nèi)容。

研究人員分別在《吃豆人》和VizDoom環(huán)境中對GameGAN等四種模型進(jìn)行定量和定性的綜合評估。

如下圖所示，Action-LSTM生成的幀缺少豆豆等細(xì)節(jié)，World Model在保持時(shí)間一致性方面存在困難，有時(shí)會(huì)出現(xiàn)嚴(yán)重的不連續(xù)，而GameGAN可以生成一致性模擬。

▲基于相同初始屏幕的不同模型表現(xiàn)

GameGAN可學(xué)習(xí)簡單和復(fù)雜的關(guān)鍵性游戲規(guī)則。例如，和原版游戲一樣，吃豆人不能穿過迷宮墻壁；它需要四處走動(dòng)吃豆豆，如果吃下一個(gè)大力丸，幽靈就會(huì)變藍(lán)逃竄；當(dāng)吃豆人從一側(cè)離開迷宮，它會(huì)被傳送到迷宮的另一側(cè)；如果它撞上了幽靈，屏幕就會(huì)閃一下，然后游戲結(jié)束。

經(jīng)訓(xùn)練的GameGAN模型可以創(chuàng)建各種有趣的靜態(tài)環(huán)境元素和移動(dòng)元素。

由于該模型能將靜態(tài)背景從移動(dòng)的角色中分離出來，它可以吃豆人、幽靈的形象換成你最喜歡的表情符號，也可以將游戲中的迷宮替換成綠籬墻式的迷宮，同時(shí)無需修改原始游戲代碼。

▲GameGAN在《吃豆人》和VizDoom中使用隨機(jī)圖像交換背景/前景

游戲開發(fā)者可以使用這一功能嘗試新的角色創(chuàng)意或游戲主題。

不止是游戲，還能模擬機(jī)器人和無人車

自主機(jī)器人通常是在模擬器中訓(xùn)練的，在與現(xiàn)實(shí)世界中的物體互動(dòng)之前，AI可以先在模擬器中學(xué)習(xí)環(huán)境的規(guī)則。

對于開發(fā)人員來說，創(chuàng)建模擬器是一個(gè)耗時(shí)的過程，他們必須編寫有關(guān)如何與目標(biāo)交互、光線如何在環(huán)境中運(yùn)作等規(guī)則。

模擬器被廣泛用于研發(fā)各類自主機(jī)器，比如學(xué)習(xí)如何抓握和移動(dòng)周圍物體的倉庫機(jī)器人、在人行道上運(yùn)輸食品或藥品的送貨機(jī)器人等。

而GameGAN提出了這樣一種可能性：未來有一天，訓(xùn)練神經(jīng)網(wǎng)絡(luò)將能取代為某個(gè)特定任務(wù)編寫模擬器的工作。

比方說你在一輛車上安裝了一個(gè)攝像頭，它可以記錄道路環(huán)境或者司機(jī)在做什么，比如轉(zhuǎn)動(dòng)方向盤或者在踩油門。這些數(shù)據(jù)可以用來訓(xùn)練一個(gè)深度學(xué)習(xí)模型，這個(gè)模型能預(yù)測在現(xiàn)實(shí)世界中，如果人類駕駛員或自動(dòng)駕駛汽車發(fā)生像猛踩剎車之類的行動(dòng)后會(huì)產(chǎn)生什么后果。

結(jié)語：GameGAN只是AI學(xué)習(xí)模仿現(xiàn)實(shí)規(guī)律的第一步

“我們最終將訓(xùn)練出一個(gè)AI，它僅通過觀看視頻和觀察目標(biāo)在環(huán)境中采取的行動(dòng)，就能學(xué)習(xí)模仿駕駛規(guī)則和物理定律?！盢VIDIA多倫多研究實(shí)驗(yàn)室主任Sanja Fidler認(rèn)為，“GameGAN是朝著這個(gè)方向邁出的第一步?！?/p>

目前該AI系統(tǒng)還不能重新創(chuàng)造聲音，不過Sanja Fidler說，未來他們或?qū)⒀a(bǔ)充這一能力。

NVIDIA將在今年晚些時(shí)候在AI PlayGround上發(fā)布其致敬游戲的AI模型，AI PlayGround是一個(gè)可供任何人直接體驗(yàn)研究演示的線上空間。

NVIDIA內(nèi)容和技術(shù)部門副總裁Rev Lebaredian表示，在不遠(yuǎn)的將來，研究團(tuán)隊(duì)將用此方法涉足更多的游戲。

而隨著AI設(shè)計(jì)游戲的能力日臻醇熟，這將為模擬充滿不確定性的真實(shí)世界中的目標(biāo)人物或物體行為提供更高效的編程工具。

（本賬號系網(wǎng)易新聞·網(wǎng)易號“各有態(tài)度”簽約帳號）

閱讀原文

原標(biāo)題：《英偉達(dá)用AI完美復(fù)現(xiàn)經(jīng)典《吃豆人》游戲！GAN首次進(jìn)軍游戲設(shè)計(jì)，自學(xué)生成新關(guān)卡》

閱讀原文

特別聲明

本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#吃豆人