中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

揭秘德?lián)銩I賭神如何詐唬人類:不以人類為師,方能勝過人類

澎湃新聞見習(xí)記者 虞涵棋
2017-02-04 22:01
來源:澎湃新聞
? 能見度 >
字號(hào)

盡管美國(guó)卡內(nèi)基梅隆大學(xué)(CMU)的計(jì)算機(jī)系教授托馬斯?桑德霍姆(Tuomas Sandholm)和其研究生諾姆?布朗(Noam Brown)在1月份捧紅了一位AI賭神Libratus,但每當(dāng)問及個(gè)中原理,他們一直在賣關(guān)子。近日,為了迎接當(dāng)?shù)貢r(shí)間2月4日舊金山開幕的美國(guó)人工智能協(xié)會(huì)年會(huì)(AAAI),桑德霍姆和布朗終于在CMU網(wǎng)站上上傳了論文,揭曉了其中的謎團(tuán)。

1月份在美國(guó)匹茲堡的大河賭場(chǎng)(Rivers Casino)舉行的一場(chǎng)人機(jī)“華山論劍”,引發(fā)了無數(shù)人工智能專家和德?lián)鋹酆谜叩年P(guān)注。在連續(xù)20個(gè)比賽日中,一個(gè)名為L(zhǎng)ibratus的人工智能在共計(jì)12萬手的一對(duì)一無限注德州撲克比賽中擊敗了四名頂尖人類高手,共計(jì)領(lǐng)先人類團(tuán)隊(duì)176萬美元籌碼。而Libratus最令人咋舌之處,是它非常善于詐唬對(duì)手同時(shí)又不被對(duì)手詐唬。那么這個(gè)AI賭神到底是如何煉成的呢?

殘局計(jì)算:人工智能的制勝之地

殘局計(jì)算一向是機(jī)器在棋類游戲中戰(zhàn)勝人類的法門。在2016年3月份阿爾法狗與世界圍棋冠軍李世石的人機(jī)大戰(zhàn)中,不少圍棋行家都指出阿爾法狗隨著比賽進(jìn)程“越下越慢”,這說明在殘局階段發(fā)揮遠(yuǎn)超人類的計(jì)算能力是阿爾法狗獲勝的關(guān)鍵。

但圍棋和德?lián)湫再|(zhì)上是完全不同的。此前20年間被人工智能攻克的西洋雙陸棋、跳棋、國(guó)際象棋和圍棋都是“完美信息”游戲,所有玩家在游戲中能獲得的確定性信息是對(duì)稱的。人工智能掌握這些游戲的難度,主要取決于游戲中需要做出的決策點(diǎn)(decision points)的數(shù)量,這決定了計(jì)算機(jī)需要的計(jì)算量。人工智能在每一個(gè)決策點(diǎn)都能獨(dú)立地計(jì)算出一個(gè)最優(yōu)解。

但德州撲克是一種包含很多隱藏信息的“不完美信息”游戲。玩家只掌握不對(duì)稱的信息,他不知道對(duì)手手中是什么牌,不知道五張公共牌會(huì)開出怎樣的結(jié)果,也不知道對(duì)手猜測(cè)自己握有怎樣的手牌。因而,雖然一局德?lián)渲械臎Q策點(diǎn)數(shù)量要少于一盤圍棋,但是這些決策點(diǎn)并不獨(dú)立,在每一個(gè)決策點(diǎn)上,玩家都需要再?gòu)娜P進(jìn)行推理,這在計(jì)算量上是難以想象的。

因此,以往人工智能處理“不完美信息”游戲會(huì)采用一種縮略的方法,即將一盤大型游戲簡(jiǎn)化為一盤近似的小游戲,在縮略的游戲中進(jìn)行計(jì)算,并將結(jié)果輸出到真實(shí)游戲中。但在這個(gè)過程中,信息會(huì)不可避免地流失,因而此前人工智能遲遲未能攻克德州撲克。

比如在處理對(duì)方的下注籌碼上,由于在計(jì)算量上難以將對(duì)方所有的下注可能性都列入決策樹(Decision Tree),因而有一種經(jīng)典的行動(dòng)翻譯法(action translation),例如將對(duì)手下注201美元近似為200美元進(jìn)行簡(jiǎn)化處理。

而桑德霍姆和布朗的這篇論文題為《不完美信息游戲中安全內(nèi)嵌的殘局計(jì)算法》,介紹了一種新的殘局計(jì)算法,即通過納什均衡來計(jì)算該如何應(yīng)對(duì)對(duì)手那些沒出現(xiàn)在決策樹上的招數(shù),并以收益反饋對(duì)自身的出招進(jìn)行動(dòng)態(tài)修正,以期達(dá)到最大可能的收益,而非簡(jiǎn)單地將對(duì)手的行為進(jìn)行近似處理。

這種新的殘局計(jì)算法最大的特點(diǎn),是開發(fā)者可以獲得一定程度的“確定性”。而“確定性”正是時(shí)下大熱的深度學(xué)習(xí)最缺乏的。

桑德霍姆說,“現(xiàn)在深度學(xué)習(xí)集萬千寵愛于一身,這也是它應(yīng)得的,但深度學(xué)習(xí)不能給你確定性?!?/p>

基于深度神經(jīng)網(wǎng)絡(luò)(deep neural networks)的深度學(xué)習(xí)無疑是目前人工智能領(lǐng)域最耀眼的明星,也是締造這一波人工智能熱潮的最大功臣。從Facebook的人臉識(shí)別系統(tǒng)到微軟的機(jī)器翻譯,再到震驚世界的谷歌圍棋AI阿爾法狗,深度學(xué)習(xí)風(fēng)頭一時(shí)無二。

但深度學(xué)習(xí)有兩大局限性,注定它并不是人工智能萬靈丹。首先,深度學(xué)習(xí)的本質(zhì)是機(jī)器通過分析海量數(shù)據(jù)習(xí)得一些模式,但并不是所有領(lǐng)域都能采集到海量數(shù)據(jù)。以自動(dòng)駕駛為例,顯然通過積累海量事故經(jīng)驗(yàn)來習(xí)得避免事故發(fā)生是不現(xiàn)實(shí)的。此外,深度學(xué)習(xí)是一個(gè)知其然而不知其所以然的“黑匣子”,這在許多重大安全事件上并不能令人放心。自動(dòng)駕駛的事故問責(zé)問題就是一例。

不以人類為師,方能勝過人類

美國(guó)《連線》雜志的一篇文章則指出,Libratus主要是依賴三套相輔相成的系統(tǒng)大獲成功。殘局計(jì)算是在比賽過程中發(fā)揮主要作用的系統(tǒng)。而比賽前期的學(xué)習(xí)系統(tǒng)和比賽后期的反饋系統(tǒng)同樣重要。前期的系統(tǒng)是所謂的強(qiáng)化學(xué)習(xí)(reinforcement learning)。這是一種將試誤理論發(fā)揮到極致的機(jī)器學(xué)習(xí)方法。簡(jiǎn)單來說,Libratus通過自己與自己玩成千上萬局德?lián)鋪韺W(xué)習(xí)。與Libratus的從零開始學(xué)習(xí)不同,谷歌的圍棋AI阿爾法狗是在學(xué)習(xí)了3000萬張人類棋譜后才開始“左右互搏”進(jìn)行自我強(qiáng)化的。

這種從零開始的強(qiáng)化學(xué)習(xí)基于一種“虛擬遺憾最小化”(counterfactual regret minimization)算法。Libratus的開發(fā)者并未通過人類的經(jīng)驗(yàn)的教會(huì)它怎么玩德?lián)?,而僅僅給了它德?lián)涞耐娣ㄒ?guī)則,讓它通過“左右互搏”來自己摸索這個(gè)游戲該怎么去玩、如何能更大概率地獲勝。由于不受人類固有經(jīng)驗(yàn)的約束,Libratus試誤的過程十分大膽而隨意,下注的范圍天馬行空,遠(yuǎn)遠(yuǎn)超過一個(gè)普通玩家會(huì)嘗試的尺度。因此,Libratus玩德?lián)涞娘L(fēng)格迥異于人類,讓人捉摸不透,而這對(duì)獲勝十分關(guān)鍵:在玩德?lián)涞倪^程中,下注要具備足夠的隨機(jī)性,這樣才會(huì)讓對(duì)手摸不清底細(xì),同時(shí)也是成功詐唬住對(duì)手的關(guān)鍵。

與Libratus交手的四位人類職業(yè)玩家證實(shí)了Libratus下注十分大膽,不拘一格:它動(dòng)不動(dòng)就押下全部籌碼,多次詐唬住人類對(duì)手。

但Libratus并非第一個(gè)運(yùn)用虛擬遺憾最小化算法的德?lián)錂C(jī)器人。早在2015年1月,加拿大阿爾特塔大學(xué)教授麥克?鮑林(Michael Bowling)在《科學(xué)》上發(fā)表論文,最早提出虛擬遺憾最小化算法可以破解一對(duì)一德?lián)浔荣?,但?dāng)時(shí)他們破解的是限注德?lián)浔荣悺uU林是這樣描述這個(gè)算法的:“想象一個(gè)人每小時(shí)玩200局撲克,每天玩12小時(shí),70年從未有一天間斷。同時(shí),他在玩的過程中時(shí)刻考慮最差的情況,爭(zhēng)取最大程度的勝利,采取針對(duì)性的策略,并且永不失誤”。這樣一個(gè)玩家,又如何不能稱霸賭場(chǎng)呢?

值得一提的是,在2017年1月初,鮑林團(tuán)隊(duì)趕在Libratus登場(chǎng)之前在預(yù)印本網(wǎng)站arXiv上上載了一篇論文,介紹了他們研發(fā)的能在一對(duì)一無限注德?lián)浔荣愔袚魯∪祟惖臋C(jī)器人Deepstack,似乎有意“截胡”。

而在比賽后,開發(fā)者們會(huì)再對(duì)比賽的過程進(jìn)行一次反饋。盡管Libratus的玩牌風(fēng)格異于人類,但通過一天的比賽,頂尖人類高手仍可能識(shí)別出Libratus的一些“套路”,并加以利用。這第三套系統(tǒng)就是在每個(gè)比賽日結(jié)束后的夜晚找出并清除掉這些“套路”,不給人類任何可乘之機(jī)。

AI不是只有深度學(xué)習(xí)

總結(jié)完AI賭神Libratus的三大制勝法門,我們發(fā)現(xiàn),Libratus之所以被視為人工智能發(fā)展的里程碑事件,其中一個(gè)重要原因是它并沒有采用深度學(xué)習(xí)。而沒有追隨深度學(xué)習(xí)潮流的Libratus,或許在現(xiàn)實(shí)生活中擁有更廣闊的用武之地:金融交易、網(wǎng)絡(luò)安全、商業(yè)拍賣、政治談判,這些情景都是充滿了各種博弈的“非完美信息”游戲,也都需要一定的“確定性”來讓人安心。

但不管怎樣,一個(gè)能在牌桌上詐唬住人類的AI賭神仍有點(diǎn)讓人“細(xì)思極恐”:如果未來有一天,一個(gè)AI外交官在談判桌上突然壓上所有籌碼,你跟還是不跟呢?

    校對(duì):余承君
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司