- +1
美國(guó)匹茲堡賭場(chǎng)上演德州撲克人機(jī)巔峰對(duì)決,AI半程領(lǐng)先
一場(chǎng)德州撲克領(lǐng)域的人機(jī)“華山論劍”正在美國(guó)匹茲堡的大河賭場(chǎng)(Rivers Casino)進(jìn)行。
這場(chǎng)比賽名為“Brains Vs. Artificial Intelligence: Upping the Ante”(人腦大戰(zhàn)電腦:升級(jí)版),于當(dāng)?shù)貢r(shí)間1月11日開幕,將持續(xù)到1月30日。四名頂尖人類撲克玩家Jason Lee、Dong Kim、Daniel McAulay 和Jimmy Chou,加上一個(gè)名為L(zhǎng)ibratus的人工智能,將在總共12萬手的一對(duì)一無限注德?lián)浔荣愔薪侵鸸谲姌s譽(yù)和20萬美元的獎(jiǎng)金。
截至1月23日,也就是第九比賽日,Libratus已通過49240手牌領(lǐng)先了459154美元的籌碼。但無論賽果如何,“第一個(gè)戰(zhàn)勝人類德?lián)溥x手的AI”這個(gè)名號(hào)都已經(jīng)輪不到它。
人機(jī)“華山論劍”,AI半程領(lǐng)先
Libratus的開發(fā)者是美國(guó)卡內(nèi)基梅隆大學(xué)的計(jì)算機(jī)系教授托馬斯·桑德霍姆(Tuomas Sandholm)和其研究生諾姆·布朗(Noam Brown)。桑德霍姆是博弈論和人工智能領(lǐng)域的專家,他認(rèn)為在人工智能的攻勢(shì)下,人類還能長(zhǎng)期堅(jiān)守?fù)淇岁嚨兀至瞬黄稹?/p>
這并不是桑德霍姆第一次帶著他的AI大將參加德州撲克的人機(jī)大戰(zhàn)。2016年4月24日至5月7日,同樣是在匹茲堡的大河賭場(chǎng),桑德霍姆團(tuán)隊(duì)開發(fā)的人工智能Claudico在連續(xù)兩周的無限注德州撲克比賽中輪流與四名排在世界前十的頂尖撲克選手(Doug Polk,Dong Kim,Bjorn Li和Jason Les)單挑80000回合,Claudico排名第四。最終的排名順序是:榜首的Bjorn Li共計(jì)贏得529033美元,第二名的Doug Polk贏得213671美元,第三名的Dong Kim贏得70491美元,而Jason Les以80482美元的差距排在AI之后。
而在更早的2015年7月,桑德霍姆的人工智能Tartanian在計(jì)算機(jī)無限注德州撲克比賽中技?jí)喝珗?chǎng)。
這次上場(chǎng)的Libratus肯定比去年失利的Claudico“功力更深”。桑德霍姆為此作出的改進(jìn)主要是采用了一種新的平衡近似方法,和在后期牌局中分析可能結(jié)果的幾種新方法。
目前賽程已經(jīng)半,Libratus領(lǐng)先四位人類職業(yè)玩家46萬美元籌碼,雖不至于說勝券在握,但起碼也是大有勝算。
本可成為第一個(gè)戰(zhàn)勝人類撲克選手的AI,月初慘遭截胡
桑德霍姆為這場(chǎng)德?lián)漕I(lǐng)域的人機(jī)“華山論劍”造勢(shì)已久,本欲力捧Libratus成為歷史上第一個(gè)戰(zhàn)勝人類玩家的德?lián)銩I,然而,這一榮譽(yù)在本月初被不幸“截胡”。
1月初,來自加拿大和捷克的10位科學(xué)家在預(yù)印本網(wǎng)站arXiv上載了一篇題為《DeepStack:無限注德?lián)涞膶I(yè)級(jí)人工智能玩家》的論文,介紹了一種能在一對(duì)一無限注德州撲克中擊敗人類玩家的新算法DeepStack。DeepStack具有出牌時(shí)的“直覺”。在運(yùn)用深度學(xué)習(xí),反復(fù)自我博弈之后,DeepStack學(xué)會(huì)了在每一個(gè)具體情境出現(xiàn)時(shí)進(jìn)行推理。這非常接近人類玩家的“牌感”,即在當(dāng)前情境下對(duì)個(gè)人牌面大小的感覺,并作出相應(yīng)的決策。鑒于桑德霍姆早已將他的比賽時(shí)間表昭告天下,業(yè)界普遍認(rèn)為加拿大和捷克的這個(gè)團(tuán)隊(duì)趕在比賽開始前夕上傳論文,是存心“截胡”。
該團(tuán)隊(duì)邀請(qǐng)了來自17個(gè)國(guó)家的33名專業(yè)撲克選手挑戰(zhàn)DeepStack,在2016年11月7日到12月12日之間共進(jìn)行了44852次較量。DeepStack成為了首個(gè)在一對(duì)一無限注德?lián)渲袘?zhàn)勝人類玩家的人工智能,并且平均勝率達(dá)到了492mbb/g(milli-big-blinds per game,一般職業(yè)玩家認(rèn)為50mbb/g是個(gè)門檻)。
盡管Libratus已無緣“歷史第一個(gè)”的頭銜,但桑德霍姆認(rèn)為L(zhǎng)ibratus面臨的對(duì)手遠(yuǎn)比Deepstack強(qiáng),交戰(zhàn)回合數(shù)也更多,因而在數(shù)據(jù)上更具顯著性。
人類在撲克陣地上為何堅(jiān)持得比圍棋久?
人類玩游戲玩不過人工智能早已不是新鮮事。自阿爾法狗2016年3月挑落世界冠軍李世石后,人類在棋類領(lǐng)域已全面淪陷。那么,為何撲克會(huì)在棋類之后淪陷,人工智能攻克撲克的特別意義又在哪里呢。
這主要是因?yàn)椋饲?0年間被人工智能攻克的西洋雙陸棋、跳棋、國(guó)際象棋和圍棋都是“完美信息”游戲,所有玩家在游戲中能獲得的確定性信息是對(duì)稱的。人工智能掌握這些游戲的難度,主要取決于游戲中需要做出的決策點(diǎn)(decision points)的數(shù)量,這決定了計(jì)算機(jī)需要的計(jì)算量。圍棋是上述幾種棋類中決策點(diǎn)數(shù)量最多的,因而也是最后被人工智能掌握的。一盤圍棋游戲約包含有10的170次方個(gè)決策點(diǎn)。
而計(jì)算機(jī)之父馮·諾依曼說過,“現(xiàn)實(shí)世界與此不同,現(xiàn)實(shí)世界包含有很多賭注、一些欺騙的戰(zhàn)術(shù),還涉及你會(huì)思考別人會(huì)認(rèn)為你將做什么。”德州撲克就是這樣一種更接近現(xiàn)實(shí)世界的游戲,玩家只能掌握自己手上的牌,通過這種非對(duì)稱的信息與對(duì)手進(jìn)行博弈。
因此,雖然一對(duì)一無限注德?lián)溆螒蛑邪?0的160次方個(gè)決策點(diǎn),要少于圍棋,但它對(duì)人工智能的推理能力提出了更高的要求
《麻省理工科技評(píng)論》(MIT Technology Review)對(duì)此評(píng)價(jià)道,如果Libratus最終贏下這場(chǎng)賽事,將是人工智能的一大盛事。人工智能此前被證明極難模仿人類在撲克游戲中運(yùn)動(dòng)的推理和智力。撲克和跳棋、國(guó)際象棋和圍棋有本質(zhì)上的區(qū)別,因?yàn)閾淇耸且环N“不完美信息”的游戲,在游戲全程,對(duì)手手中的牌面都是未知的。因此,基于所有對(duì)手可能的路徑而給出最理想的出牌策略是一項(xiàng)極其復(fù)雜的運(yùn)算,而在無限注德?lián)渚种?,?duì)方可以在原則上下加任意注,這無疑又大大增加了挑戰(zhàn)性。
AI的開發(fā)者們運(yùn)用博弈論和戰(zhàn)略決策理論,在充滿不確定性的情景中找到最佳策略,即所謂的“均衡”。因?yàn)榍榫持猩婕疤嗟目赡苄?,開發(fā)者們或多或少要采用一些近似的手法。
百度首席科學(xué)家吳恩達(dá)(Andrew Ng)說道,“撲克是人工智能最難攻克的游戲之一。每一步?jīng)]有所謂的最優(yōu)解,人工智能要采取隨機(jī)的策略,這樣它詐唬的時(shí)候?qū)Ψ讲艜?huì)吃不準(zhǔn)?!?/p>
詐唬(bluff)是德州撲克的一種經(jīng)典策略,它生動(dòng)地體現(xiàn)了撲克游戲的“心理博弈”特征:即在手上的牌不夠大的時(shí)候,依然虛張聲勢(shì)地加注,以嚇退對(duì)手。為了達(dá)到好的詐唬效果,玩家的下注策略需要具備足夠的隨機(jī)性,以避免被對(duì)手摸清套路。總是詐唬的人和從不詐唬的人都不是一個(gè)好的德?lián)渫婕摇?/p>
就像肯尼·羅杰斯的歌詞里寫的,“一個(gè)賭徒要知道什么時(shí)候該跟牌,什么時(shí)候該棄牌”。而在此次人機(jī)大戰(zhàn)中,幾位人類玩家已經(jīng)發(fā)現(xiàn)Libratus十分善于詐唬和不被詐唬。
《麻省理工科技評(píng)論》提到,用于開發(fā)更聰明的德?lián)錂C(jī)器人的技術(shù)將有許多實(shí)際用途。此前,博弈論就被用在干擾攻擊、網(wǎng)絡(luò)安全、出租車自動(dòng)駕駛、機(jī)器人規(guī)劃的研究上,這些研究都設(shè)計(jì)不完美信息情境中的決策制定。
但即使Libratus此次奪魁,人類仍將在牌桌邊擁有一席之地:Libratus和其代表的人工智能技術(shù)尚不能應(yīng)對(duì)多人無限注德?lián)浔荣悺?/p>





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




