揭秘德?lián)銩I賭神如何詐唬人類：不以人類為師，方能勝過人類

澎湃新聞見習(xí)記者虞涵棋

2017-02-04 22:01

來源：澎湃新聞

盡管美國(guó)卡內(nèi)基梅隆大學(xué)（CMU）的計(jì)算機(jī)系教授托馬斯?桑德霍姆（Tuomas Sandholm）和其研究生諾姆?布朗（Noam Brown）在1月份捧紅了一位AI賭神Libratus，但每當(dāng)問及個(gè)中原理，他們一直在賣關(guān)子。近日，為了迎接當(dāng)?shù)貢r(shí)間2月4日舊金山開幕的美國(guó)人工智能協(xié)會(huì)年會(huì)（AAAI），桑德霍姆和布朗終于在CMU網(wǎng)站上上傳了論文，揭曉了其中的謎團(tuán)。

1月份在美國(guó)匹茲堡的大河賭場(chǎng)（Rivers Casino）舉行的一場(chǎng)人機(jī)“華山論劍”，引發(fā)了無數(shù)人工智能專家和德?lián)鋹酆谜叩年P(guān)注。在連續(xù)20個(gè)比賽日中，一個(gè)名為L(zhǎng)ibratus的人工智能在共計(jì)12萬手的一對(duì)一無限注德州撲克比賽中擊敗了四名頂尖人類高手，共計(jì)領(lǐng)先人類團(tuán)隊(duì)176萬美元籌碼。而Libratus最令人咋舌之處，是它非常善于詐唬對(duì)手同時(shí)又不被對(duì)手詐唬。那么這個(gè)AI賭神到底是如何煉成的呢？

殘局計(jì)算：人工智能的制勝之地

殘局計(jì)算一向是機(jī)器在棋類游戲中戰(zhàn)勝人類的法門。在2016年3月份阿爾法狗與世界圍棋冠軍李世石的人機(jī)大戰(zhàn)中，不少圍棋行家都指出阿爾法狗隨著比賽進(jìn)程“越下越慢”，這說明在殘局階段發(fā)揮遠(yuǎn)超人類的計(jì)算能力是阿爾法狗獲勝的關(guān)鍵。

但圍棋和德?lián)湫再|(zhì)上是完全不同的。此前20年間被人工智能攻克的西洋雙陸棋、跳棋、國(guó)際象棋和圍棋都是“完美信息”游戲，所有玩家在游戲中能獲得的確定性信息是對(duì)稱的。人工智能掌握這些游戲的難度，主要取決于游戲中需要做出的決策點(diǎn)（decision points）的數(shù)量，這決定了計(jì)算機(jī)需要的計(jì)算量。人工智能在每一個(gè)決策點(diǎn)都能獨(dú)立地計(jì)算出一個(gè)最優(yōu)解。

但德州撲克是一種包含很多隱藏信息的“不完美信息”游戲。玩家只掌握不對(duì)稱的信息，他不知道對(duì)手手中是什么牌，不知道五張公共牌會(huì)開出怎樣的結(jié)果，也不知道對(duì)手猜測(cè)自己握有怎樣的手牌。因而，雖然一局德?lián)渲械臎Q策點(diǎn)數(shù)量要少于一盤圍棋，但是這些決策點(diǎn)并不獨(dú)立，在每一個(gè)決策點(diǎn)上，玩家都需要再?gòu)娜P進(jìn)行推理，這在計(jì)算量上是難以想象的。

因此，以往人工智能處理“不完美信息”游戲會(huì)采用一種縮略的方法，即將一盤大型游戲簡(jiǎn)化為一盤近似的小游戲，在縮略的游戲中進(jìn)行計(jì)算，并將結(jié)果輸出到真實(shí)游戲中。但在這個(gè)過程中，信息會(huì)不可避免地流失，因而此前人工智能遲遲未能攻克德州撲克。

比如在處理對(duì)方的下注籌碼上，由于在計(jì)算量上難以將對(duì)方所有的下注可能性都列入決策樹(Decision Tree)，因而有一種經(jīng)典的行動(dòng)翻譯法（action translation），例如將對(duì)手下注201美元近似為200美元進(jìn)行簡(jiǎn)化處理。

而桑德霍姆和布朗的這篇論文題為《不完美信息游戲中安全內(nèi)嵌的殘局計(jì)算法》，介紹了一種新的殘局計(jì)算法，即通過納什均衡來計(jì)算該如何應(yīng)對(duì)對(duì)手那些沒出現(xiàn)在決策樹上的招數(shù)，并以收益反饋對(duì)自身的出招進(jìn)行動(dòng)態(tài)修正，以期達(dá)到最大可能的收益，而非簡(jiǎn)單地將對(duì)手的行為進(jìn)行近似處理。

這種新的殘局計(jì)算法最大的特點(diǎn)，是開發(fā)者可以獲得一定程度的“確定性”。而“確定性”正是時(shí)下大熱的深度學(xué)習(xí)最缺乏的。

桑德霍姆說，“現(xiàn)在深度學(xué)習(xí)集萬千寵愛于一身，這也是它應(yīng)得的，但深度學(xué)習(xí)不能給你確定性?！?/p>

基于深度神經(jīng)網(wǎng)絡(luò)（deep neural networks）的深度學(xué)習(xí)無疑是目前人工智能領(lǐng)域最耀眼的明星，也是締造這一波人工智能熱潮的最大功臣。從Facebook的人臉識(shí)別系統(tǒng)到微軟的機(jī)器翻譯，再到震驚世界的谷歌圍棋AI阿爾法狗，深度學(xué)習(xí)風(fēng)頭一時(shí)無二。

但深度學(xué)習(xí)有兩大局限性，注定它并不是人工智能萬靈丹。首先，深度學(xué)習(xí)的本質(zhì)是機(jī)器通過分析海量數(shù)據(jù)習(xí)得一些模式，但并不是所有領(lǐng)域都能采集到海量數(shù)據(jù)。以自動(dòng)駕駛為例，顯然通過積累海量事故經(jīng)驗(yàn)來習(xí)得避免事故發(fā)生是不現(xiàn)實(shí)的。此外，深度學(xué)習(xí)是一個(gè)知其然而不知其所以然的“黑匣子”，這在許多重大安全事件上并不能令人放心。自動(dòng)駕駛的事故問責(zé)問題就是一例。

不以人類為師，方能勝過人類

美國(guó)《連線》雜志的一篇文章則指出，Libratus主要是依賴三套相輔相成的系統(tǒng)大獲成功。殘局計(jì)算是在比賽過程中發(fā)揮主要作用的系統(tǒng)。而比賽前期的學(xué)習(xí)系統(tǒng)和比賽后期的反饋系統(tǒng)同樣重要。前期的系統(tǒng)是所謂的強(qiáng)化學(xué)習(xí)（reinforcement learning）。這是一種將試誤理論發(fā)揮到極致的機(jī)器學(xué)習(xí)方法。簡(jiǎn)單來說，Libratus通過自己與自己玩成千上萬局德?lián)鋪韺W(xué)習(xí)。與Libratus的從零開始學(xué)習(xí)不同，谷歌的圍棋AI阿爾法狗是在學(xué)習(xí)了3000萬張人類棋譜后才開始“左右互搏”進(jìn)行自我強(qiáng)化的。

這種從零開始的強(qiáng)化學(xué)習(xí)基于一種“虛擬遺憾最小化”（counterfactual regret minimization）算法。Libratus的開發(fā)者并未通過人類的經(jīng)驗(yàn)的教會(huì)它怎么玩德?lián)?，而僅僅給了它德?lián)涞耐娣ㄒ?guī)則，讓它通過“左右互搏”來自己摸索這個(gè)游戲該怎么去玩、如何能更大概率地獲勝。由于不受人類固有經(jīng)驗(yàn)的約束，Libratus試誤的過程十分大膽而隨意，下注的范圍天馬行空，遠(yuǎn)遠(yuǎn)超過一個(gè)普通玩家會(huì)嘗試的尺度。因此，Libratus玩德?lián)涞娘L(fēng)格迥異于人類，讓人捉摸不透，而這對(duì)獲勝十分關(guān)鍵：在玩德?lián)涞倪^程中，下注要具備足夠的隨機(jī)性，這樣才會(huì)讓對(duì)手摸不清底細(xì)，同時(shí)也是成功詐唬住對(duì)手的關(guān)鍵。

與Libratus交手的四位人類職業(yè)玩家證實(shí)了Libratus下注十分大膽，不拘一格：它動(dòng)不動(dòng)就押下全部籌碼，多次詐唬住人類對(duì)手。

但Libratus并非第一個(gè)運(yùn)用虛擬遺憾最小化算法的德?lián)錂C(jī)器人。早在2015年1月，加拿大阿爾特塔大學(xué)教授麥克?鮑林（Michael Bowling）在《科學(xué)》上發(fā)表論文，最早提出虛擬遺憾最小化算法可以破解一對(duì)一德?lián)浔荣?，但?dāng)時(shí)他們破解的是限注德?lián)浔荣悺ｕU林是這樣描述這個(gè)算法的：“想象一個(gè)人每小時(shí)玩200局撲克，每天玩12小時(shí)，70年從未有一天間斷。同時(shí)，他在玩的過程中時(shí)刻考慮最差的情況，爭(zhēng)取最大程度的勝利，采取針對(duì)性的策略，并且永不失誤”。這樣一個(gè)玩家，又如何不能稱霸賭場(chǎng)呢？

值得一提的是，在2017年1月初，鮑林團(tuán)隊(duì)趕在Libratus登場(chǎng)之前在預(yù)印本網(wǎng)站arXiv上上載了一篇論文，介紹了他們研發(fā)的能在一對(duì)一無限注德?lián)浔荣愔袚魯∪祟惖臋C(jī)器人Deepstack，似乎有意“截胡”。

而在比賽后，開發(fā)者們會(huì)再對(duì)比賽的過程進(jìn)行一次反饋。盡管Libratus的玩牌風(fēng)格異于人類，但通過一天的比賽，頂尖人類高手仍可能識(shí)別出Libratus的一些“套路”，并加以利用。這第三套系統(tǒng)就是在每個(gè)比賽日結(jié)束后的夜晚找出并清除掉這些“套路”，不給人類任何可乘之機(jī)。

AI不是只有深度學(xué)習(xí)

總結(jié)完AI賭神Libratus的三大制勝法門，我們發(fā)現(xiàn)，Libratus之所以被視為人工智能發(fā)展的里程碑事件，其中一個(gè)重要原因是它并沒有采用深度學(xué)習(xí)。而沒有追隨深度學(xué)習(xí)潮流的Libratus，或許在現(xiàn)實(shí)生活中擁有更廣闊的用武之地：金融交易、網(wǎng)絡(luò)安全、商業(yè)拍賣、政治談判，這些情景都是充滿了各種博弈的“非完美信息”游戲，也都需要一定的“確定性”來讓人安心。

但不管怎樣，一個(gè)能在牌桌上詐唬住人類的AI賭神仍有點(diǎn)讓人“細(xì)思極恐”：如果未來有一天，一個(gè)AI外交官在談判桌上突然壓上所有籌碼，你跟還是不跟呢？

校對(duì)：余承君

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)