兩大AI團隊為德撲暗中較勁十年為哪般：爭奪通用AI入場券

澎湃新聞見習記者虞涵棋

2017-03-03 20:58

來源：澎湃新聞

當1997年國際象棋棋壇神話卡斯帕羅夫敗給IBM的“深藍”時，還沒有多少人把該事件與人工智能這個概念聯系起來。此后，歷史見證了人類在各種游戲上的節(jié)節(jié)潰敗。2017年新年伊始，先后有兩個研究團隊推出的人工智能成功擊敗了職業(yè)德州撲克選手。這在普通人眼里可能不如阿爾法狗擊敗世界圍棋冠軍厲害，畢竟比起圍棋的“陽春白雪”，德州撲克是很多人能下場玩兩把的游戲。但許多學者卻把掌握德撲視為人工智能的里程碑事件。

《自然》雜志3月2日發(fā)表的一篇文章，就詳解了這兩個研究團隊實現德州撲克算法的不同路徑，并回答了幾個大家關心的問題：以后人類是不是沒得玩德撲了？玩壞了德撲，AI下一歩還要玩什么？兩家德撲AI什么時候來比一場？

這兩個研究團隊，一個由美國卡內基梅隆大學（CMU）的計算機系教授托馬斯?桑德霍姆（Tuomas Sandholm）領銜，一個由加拿大阿爾伯塔大學、捷克的查爾斯大學和布拉格捷克理工大學合作。在過去十年間，兩個團隊一直在暗暗較勁著搞“軍備競賽”，都想研發(fā)出世界上第一個擊敗職業(yè)玩家的德撲AI。2015年，阿爾伯塔大學率先攻克了一對一限注德撲，先下一城，接下去雙方的角逐點是一對一無限注德撲。

桑德霍姆為自家的Libratus早早安排好了一場德撲界的人機“華山論劍”，預先選出了他們團隊心目中的人類高手Top4，邀請他們在1月11日到1月30日之間與Libratus進行共計12萬手的一對一無限注德撲比賽。

不料就在匹茲堡大河賭場的這場巔峰對決開幕前夕，加拿大和捷克的聯合團隊搶先在預印本網站arXiv上載了一篇題為《DeepStack：無限注德撲的專業(yè)級人工智能玩家》的論文，介紹了他們團隊的DeepStack，在與來自17個國家的33名職業(yè)選手的4萬多手比賽中拔得頭籌。

因此，Libratus雖然最終碾壓了四名頂尖高手，“歷史第一”的桂冠卻慘遭截胡。桑德霍姆認為，Libratus的對手水平更好，交戰(zhàn)回合數也更多，因而它的戰(zhàn)績更具含金量。

為什么AI研究者關心撲克？

撲克和AI之前攻克的國際象棋、圍棋等棋類有本質上的不同，是一種更加復雜的“非完美信息”游戲。選手需要考慮對方可能持有的手牌，和對方猜測自己持有怎樣的手牌。這種“非完美信息”游戲更好地模擬了現實生活中的談判、金融交易等情景，正如計算機之父馮·諾依曼所說，“現實世界與此不同，現實世界包含有很多冒險、欺騙的戰(zhàn)術，還涉及你會思考別人會認為你將做什么?！?/p>

現在人工智能已經在圍棋、撲克等特定任務上媲美甚至超過人類，但我們最終追求的是能像人類一樣適應現實生活中各種不確定性和完成各種任務的通用人工智能（GAI）。而德撲AI就是走向GAI的關鍵一步。

德撲算法的數學原理是什么？

博弈論是德撲算法的核心，即AI的目標是找到一個無論對方走哪一步，自己都不會產生損失的策略。在博弈論中，像一對一撲克這種零和游戲永遠存在這樣的最優(yōu)解，就像在經典的博弈論模型“囚徒困境”中，招認罪行就是一個無論對方招認不招認都最優(yōu)的策略。人類高手可能會利用對手的犯錯來獲得更大的利益，但對AI就毫無辦法。因為AI只會按計算所得的最優(yōu)策略決策，不受對手的干擾。

之前的撲克算法一般都是在龐大的“決策樹”上提前推算出最優(yōu)解。但一盤德撲涉及的可能性有10的160次方種，窮舉法是不現實的。因此，研究者們往往會采用近似模擬的方法，把臨場的局面與此前設定過的情況進行匹配，找到最近似的一種比以此決策。不過，在這種近似模擬的過程中，信息流失是不可避免的，因此此前開發(fā)出的德撲AI都不太理想。

而DeepStack和Libratus現在都找到了能和國際象棋和圍棋AI一樣進行臨場計算的方法。

比較DeepStack和Libratus的不同

此前在arXiv上曝光的關于DeepStack算法的論文近日刊登在了《科學》上。根據論文的描述，DeepStack避開了在整盤游戲的決策樹上進行計算，每次只計算未來的有限幾步。

DeepStack和阿爾法狗修煉的是同一本“秘笈”——時下大紅大紫的深度學習。在學習了1100萬種局面后，DeepStack已經能在較短的時間（大約5秒）內做出每一個臨場情境下的決策，非常類似于人類憑經驗習得的“直覺”。

而桑德霍姆團隊目前還沒有披露Libratus的全部秘密。我們目前有限的信息是，Libratus在牌局初期會采用近似轉化的方法來減少計算量，而殘局階段才是Libratus真正發(fā)威的時候：殘局階段計算量更少，計算機可以做到實時計算。

此外，研發(fā)者們還給Libratus附加了一種自我改進的機制。每一個比賽日過后，Libratus都會反思有哪些漏洞被對手利用了，并進行修補。

從DeepStack和Libratus所用的計算量來看，DeepStack是站在流行潮頭的深度學習產物，依靠大數據的訓練而大大減少了計算量（175年“核心時間”）,而Libratus更像是依靠超算能力的“老式經典人工智能”(大約2900年“核心時間”)。Libratus在大河賭場大殺特殺的同時，匹茲堡超算中心在背后賣力支持。

AI會詐唬嗎？

詐唬（bluffing）是德州撲克的一種經典策略，它生動地體現了撲克游戲的“心理博弈”特征：即在手上的牌不夠大的時候，依然虛張聲勢地加注，以嚇退對手。為了達到好的詐唬效果，玩家的下注策略需要具備足夠的隨機性，以避免被對手摸清套路?？偸窃p唬的人和從不詐唬的人都不是一個好的德撲玩家。

在比賽中，Libratus和DeepStack都表現出了高水平的詐唬和反詐唬。畢竟，AI對人類對手的“演技”可是視而不見的，它們“滿腦子”都是數學。對AI來說，詐唬只是一種讓對手猜不透自己手牌的數學手段。

誰的戰(zhàn)績更亮眼？

總體上兩家的AI玩的盤數都足夠在統計學上建立顯著性。DeepStack玩的盤數沒Libratus多，不過它也沒必要。因為它的團隊采用了高明的統計學方法，讓它能在更少的盤數里就取得具有顯著性的戰(zhàn)績。Libratus的對手水平更高。整體上講，DeepStack優(yōu)勢更明顯。

兩家AI會對戰(zhàn)嗎？

“火星撞地球”是可能發(fā)生的。但兩家的計算能力和計算速度很不同，兩家可能很難統一規(guī)則。DeepStack的主要研發(fā)者、阿爾伯塔大學的麥克·保齡（Michael Bowling）稱他們已經做好準備迎戰(zhàn)Libratus，但Libratus的開發(fā)者稱在對戰(zhàn)DeepStack之前，Libratus想先擊敗自家之前開發(fā)的人工智能Baby Tartanian8。

保齡告訴《自然》雜志，勝利者并不一定是更好的人工智能系統。在面對面交戰(zhàn)中，一方可能抓住另一方的一個漏洞獲勝，但這不意味著對方總的漏洞數就比獲勝方多。除非其中一方可以在戰(zhàn)績上碾壓另一方，不然保齡都認為這種比賽并不會像大家期待的那樣有說服力。

在線撲克游戲是不是沒得玩了？

并不是。許多在線撲克賭場都禁止使用計算機。不過很多高手都開始用以計算機對戰(zhàn)的方式訓練。

在德撲之后，AI還剩下什么沒攻克？

AI面前還有好幾座大山。比如橋牌，規(guī)則更復雜了，目標也更不明確。

兩家競爭對手下一步自然是要攻克多人撲克。因為多人撲克不是零和游戲，幾乎等于要從頭開始研究。比如在三人撲克中，其中一個人的爛招并不是總是對對手有利，有時候會讓另一方受損。

不過保齡認為即使博弈論不適用了，深度學習帶來的“直覺”總是有用的。目前，他的團隊在嘗試用與DeepStack類似的方法應付三人限注德撲，成效不錯。

另一個挑戰(zhàn)是不告訴AI游戲規(guī)則，讓AI在游戲過程中自己琢磨出規(guī)則來。這更像我們面臨的現實生活。

校對：張艷

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報