- +1
李世石最后一戰(zhàn)被AI擊敗,唯一勝過(guò)AlphaGo的人退役了
機(jī)器之心報(bào)道
參與:蛋醬、張倩、李澤南
退役賽的最后一局,李世石回到了自己的家鄉(xiāng)。對(duì)戰(zhàn)之地距離李世石的出生地飛禽島 40 多公里,他曾在飛禽島度過(guò)了他的童年時(shí)光,也是在這里決定成為職業(yè)圍棋選手。

12 歲入段,36 歲正式退役,24 年攬獲 14 項(xiàng)國(guó)際項(xiàng)冠軍和 32 項(xiàng)國(guó)內(nèi)冠軍,從此以后,「李世石九段」不會(huì)再以職業(yè)棋手的身份出現(xiàn)在眾人面前。
最后一戰(zhàn),他還是選擇了 AI
11 月 19 日,李世石向韓國(guó)棋院正式遞交辭呈,宣告了自己 24 年職業(yè)圍棋生涯的結(jié)束。
在接受韓聯(lián)社采訪時(shí),他表示自己之所以選擇退役,是因?yàn)椤窤I 不可戰(zhàn)勝」:「在圍棋 AI 出現(xiàn)以后,我發(fā)覺(jué)即使自己成為第一名,也永遠(yuǎn)需要面對(duì)一個(gè)不可戰(zhàn)勝的實(shí)體?!?/p>
李世石曾經(jīng)的對(duì)手,曾經(jīng)「絕代雙驕」的另一人——中國(guó)圍棋職業(yè)選手古力九段在得知這一消息之后,在社交平臺(tái)上公開(kāi)表示:「此刻只想給他一個(gè)大大的擁抱?!?/p>

當(dāng)很多人都以為李世石的最后一戰(zhàn)會(huì)選擇與古力對(duì)決時(shí),李世石卻選了韓國(guó)圍棋 AI「Handol」,理由是擔(dān)心「最后和他下棋的人會(huì)有負(fù)擔(dān)」。
這是他自從 2016 年負(fù)于 AlphaGo 之后,再一次對(duì)戰(zhàn)圍棋 AI,也是人類(lèi)棋手第一次與 AI 下升降三番棋。
一直以來(lái),人們都認(rèn)為頂尖人類(lèi)棋手與 AI 之間的差距在二子到三子之間,但由于從來(lái)沒(méi)有進(jìn)行過(guò)正式比賽的對(duì)局,所以真正差距無(wú)從得知。李世石提到,自己最終選擇下升降棋,也是想確認(rèn)人類(lèi)和人工智能之間的差距到底有多少。在對(duì)戰(zhàn) Handol 之前,李世石說(shuō)自己已經(jīng)有大概 5 個(gè)月的時(shí)間沒(méi)有參加過(guò)比賽,也幾乎沒(méi)有進(jìn)行過(guò)圍棋訓(xùn)練。
北京時(shí)間 12 月 18 日 12 時(shí),李世石與 Handol 開(kāi)始第一局對(duì)弈。李世石執(zhí)黑被讓兩子,按 7 目半還子。前半盤(pán)黑棋先拿到右上角實(shí)地,勝率一直保持在 80% 以上。隨后白棋開(kāi)始反擊,直到第 78 手之前,勝率一直處于上升階段。
轉(zhuǎn)折點(diǎn)出現(xiàn)在李世石的第 78 手(值得一提的是,李世石當(dāng)年對(duì)戰(zhàn) AlphaGo 獲勝的唯一一局,勝負(fù)手同樣是第 78 手)。黑棋吃掉白棋棋筋,加之 Handol 在第 84 手征子失誤,只得在第 92 手時(shí)投子認(rèn)輸。

這場(chǎng)比賽僅用兩小時(shí)就分出了勝負(fù), 在 100 手以?xún)?nèi)即告結(jié)束。盡管李世石表示賽前曾連續(xù)練習(xí)了十天的被讓兩子棋,「幾乎醒著的時(shí)候都在練棋」,但他也表示未能料到自己會(huì)在與 AI 的對(duì)決中獲勝。

12 月 19 日,第二局。由于李世石在第一局比賽中獲勝,第二局 Handol 不再讓子,李世石仍然執(zhí)黑先行。
這一局,李世石在第 31 手出現(xiàn)誤判,而后白棋的勝率預(yù)測(cè)一直保持在 90% 以上,到了第 40 手以后,勝負(fù)已經(jīng)基本明朗。


最終李世石在第 122 步認(rèn)輸。這一局時(shí)長(zhǎng) 3 小時(shí) 20 分鐘,至此,李世石與 Handol1:1 戰(zhàn)平,而剩下的最后一局尤為關(guān)鍵。
人類(lèi)再次在圍棋「人機(jī)大戰(zhàn)」中取得了一場(chǎng)勝利。谷歌 DeepMind 資深研究員、ALphaGo 主要程序開(kāi)發(fā)者黃士杰曾在看完前兩盤(pán)對(duì)決之后表示,如果再有兩年的算法更新和優(yōu)化,AlphaGo Master 將會(huì)是最強(qiáng)的棋手。但 AI 要做到萬(wàn)無(wú)一失,仍需要解決 bug 問(wèn)題。

在最后一局中,Handol 解除了大部分限制,在每一步上花費(fèi)了更多「思考」時(shí)間。AI 執(zhí)白在右下角存活之后,逐漸將勝率從 20% 扳至五五開(kāi),李世石的思考時(shí)間則逐漸用盡。

下午 2 時(shí) 50 分左右,李世石進(jìn)入讀秒,此時(shí)白棋已在右側(cè)和左上成活,李世石試圖通過(guò)打劫尋找 AI 的破綻。
但李世石的努力并沒(méi)有扭轉(zhuǎn)頹勢(shì),在弈至 159 手時(shí),AI 判斷李世石的勝率降到 5%。

最終,在行至 181 手時(shí),李世石投子認(rèn)負(fù)。
這是三局之中最漫長(zhǎng)的一局,雙方對(duì)弈超過(guò)四小時(shí)。

賽后,李世石在接受采訪時(shí)表示:「這場(chǎng)比賽中,Handol 的表現(xiàn)與前幾場(chǎng)類(lèi)似,如果自己能夠再謹(jǐn)慎一點(diǎn),或許比賽的結(jié)果會(huì)有所不同?!箤?duì)于退役后的工作,李世石還沒(méi)有做出選擇。
棋壇再無(wú)「李世石九段」
李世石的退役消息來(lái)得突然,但也算早有苗頭。今年 3 月份,李世石在「三一運(yùn)動(dòng)一百周年紀(jì)念對(duì)局」中敗于柯潔之后,即透露過(guò)自身想要「在一年之內(nèi)」退役的想法。
除了沒(méi)有信心戰(zhàn)勝 AI,李世石的退役似乎也和自己與韓國(guó)棋院之間的矛盾分不開(kāi)。在韓國(guó)棋院的 24 年中,李世石曾提交過(guò)休職申請(qǐng),也強(qiáng)行退出過(guò)棋士會(huì),特立獨(dú)行的處事方式與其在棋盤(pán)上的風(fēng)格如出一轍。
李世石 1983 年出生在距離全羅南道新安郡的飛禽島,愛(ài)好圍棋的父親是李世石的第一任導(dǎo)師。6 歲開(kāi)始接觸圍棋的李世石是兄弟姐妹中年齡最小的一個(gè),但也是天賦最高的一個(gè)。9 歲時(shí),因大哥李相勛成功入段,父親終于也下定決心將李世石送到有「韓國(guó)圍棋山脈」之稱(chēng)的首爾權(quán)甲龍圍棋道場(chǎng)學(xué)棋。

3 年零 6 個(gè)月后,年僅 12 歲的李世石成功入段,從此在韓國(guó)棋院開(kāi)始了職業(yè)圍棋生涯。24 年來(lái),李世石已經(jīng)獲得了 14 個(gè)國(guó)際比賽冠軍,32 次國(guó)內(nèi)比賽冠軍,皆?xún)H次于李昌鎬,高居歷史第二。
2000 年,當(dāng)時(shí)的「李世石三段」在巴斯卡杯天元戰(zhàn)和倍達(dá)王戰(zhàn)中擊敗柳才馨九段和劉昌赫九段,連獲兩個(gè)冠軍,成為圍棋史上成就最高的「三段」選手。但他卻拒絕參加升段賽,聲稱(chēng)「段位并不能體現(xiàn)實(shí)力」。為此,韓國(guó)棋界不得不廢除了升段賽,改以成績(jī)定段位。2001 年,李世石在獲得第五屆 LG 杯世界棋王賽亞軍后升至七段,2003 年獲 LG 世界棋王戰(zhàn)冠軍,直升九段。
李世石的圍棋生涯中曾有一次「妥協(xié)」的退役風(fēng)波,2009 年 6 月,李世石曾向韓國(guó)棋院提交過(guò)休職書(shū),稱(chēng)因「韓國(guó)棋院對(duì)棋手不合理的約束」而身心疲憊,計(jì)劃從當(dāng)日起休職到 2010 年底。半年后,李世石復(fù)職,但桀驁不馴的性格并未改變。2016 年,李世石又與哥哥李相勛一起,因韓國(guó)棋院「克扣獎(jiǎng)金」的原因退出了棋士會(huì)。
唯一打敗過(guò) AlphaGo 的人類(lèi)
盡管在圍棋上已經(jīng)登峰造極,真正讓李世石名聲大噪的還是與 AlphaGo 的「人機(jī)大戰(zhàn)」。
李世石在 2016 年 3 月與 AlphaGo 的一番激戰(zhàn),被認(rèn)為是人工智能歷史上的一次里程碑事件——雖然李世石以 1:4 的比分落敗,但在比賽的第四局,李世石的驚天翻盤(pán)卻讓他成為了迄今為止唯一一個(gè)戰(zhàn)勝過(guò) AlphaGo 的棋手。他在第 78 手出人預(yù)料的一擠,讓 AlphaGo 后續(xù)的反應(yīng)出現(xiàn)失常,徹底改變了戰(zhàn)局——這與此次在第一局中戰(zhàn)勝 Handol 的場(chǎng)面何其相似。
李世石面對(duì) AlphaGo 的那一次勝利,曾經(jīng)為人類(lèi)戰(zhàn)勝人工智能帶來(lái)了一線希望,但后來(lái)李世石將勝利歸功于 AlphaGo 程序的缺陷?!肝业牡?78 手并不應(yīng)該用直接的方式應(yīng)對(duì)?!?/p>
當(dāng)然,這樣的 bug 不止存在于 AlphaGo。李世石曾說(shuō):「在騰訊『絕藝』中,這樣的 bug 至今仍然會(huì)出現(xiàn)。即使現(xiàn)在的絕藝已經(jīng)可以做到讓人類(lèi)兩子勝利了,但它仍然會(huì)以奇怪的方式輸?shù)舯荣悾@是因?yàn)橐粋€(gè) bug 所致。」
在前三場(chǎng)比賽輸給 AlphaGo 之后,他曾感到相當(dāng)沮喪。「我很少看網(wǎng)上對(duì)我的評(píng)論,但是輸給了阿爾法狗以后,我很好奇大家怎么看我。意外的是,很少有人批評(píng)我。」
人類(lèi)真的永遠(yuǎn)不會(huì)再戰(zhàn)勝 AI?
這一次對(duì)戰(zhàn) Handol,李世石賺了 2 億韓元(約合 121 萬(wàn)元人民幣),包括 1 億 5000 萬(wàn)韓元的基本出場(chǎng)費(fèi),每勝一局額外獲得 5000 萬(wàn)韓元的獎(jiǎng)金。
自從 2016 年 AlphaGo 大戰(zhàn)李世石之后,圍棋 AI 即被推上風(fēng)口浪尖?;诮暌詠?lái)深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的發(fā)展,AlphaGo 和各類(lèi)圍棋 AI 的不斷升級(jí),人們一度認(rèn)為,人類(lèi)再不可能戰(zhàn)勝 AI。
Handol 是韓國(guó) NHN 娛樂(lè)公司推出的一款圍棋 AI,用以訓(xùn)練的數(shù)據(jù)來(lái)自 1999 年以來(lái) NHN 公司在游戲業(yè)務(wù)方面的大量積累。與 AlphaGo 的進(jìn)化路線相似,2017 年 12 月,Handol1.0 出世,當(dāng)時(shí)已擁有人類(lèi)職業(yè)棋手 9 段棋力,可以實(shí)現(xiàn)在人類(lèi)棋譜及既定模式的基礎(chǔ)上對(duì)棋局進(jìn)行預(yù)測(cè),到了 Handol 2.0 已經(jīng)能夠脫離棋譜,自己與自己下棋。在 NHN 看來(lái),Handol2.1 的實(shí)力已經(jīng)超越了當(dāng)初對(duì)戰(zhàn)李世石的 AlphaGo。
2019 年 1 月,Handol 連續(xù)戰(zhàn)勝了申旻埈九段、李東勛九段、金智碩九段、樸正煥九段和申真瑞九段五位韓國(guó)頂級(jí)圍棋選手,8 月在山東舉行的「中信證券杯」世界智能?chē)骞_(kāi)賽中,Handol 也捧回了季軍獎(jiǎng)杯。
在「Handol」首局落敗之后,NHN 公司人工智能項(xiàng)目的負(fù)責(zé)人李昌律推測(cè)稱(chēng),「輸?shù)暨@一局的原因 kennel 在于「Handol」總體學(xué)習(xí)量尚且不足,缺少對(duì)開(kāi)局讓兩子和讓三子等棋局的學(xué)習(xí)」。

據(jù)「Handol」研發(fā)團(tuán)隊(duì)估算,「Handol」的棋力水平相當(dāng)于世界圍棋中的 4500 積分,而目前李世石的積分為 3414 分,柯潔、樸廷桓等人類(lèi)頂尖棋手的積分接近 3700 分。
在圍棋 AI 領(lǐng)域,棋力最高的選手仍然是 DeepMind 公司的 AlphaGo,它也是第一個(gè)擊敗人類(lèi)圍棋世界冠軍的人工智能程序。在 2017 年柯潔與 AlphaGo 對(duì)戰(zhàn)之后,David Silver、谷歌大腦負(fù)責(zé)人 Jeff Dean 等人曾在烏鎮(zhèn)圍棋峰會(huì)現(xiàn)場(chǎng)對(duì) AlphaGo 背后的技術(shù)進(jìn)行過(guò)解讀。
AlphaGo 最初主要是依靠大量學(xué)習(xí)人類(lèi)棋手的棋譜來(lái)提高棋藝,之后 進(jìn)入到完全的自我深度學(xué)習(xí)階段,也就是完全摒棄人類(lèi)棋手的思維方式,按照自己(左右互搏)的方式研究圍棋。結(jié)合監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì),AlphaGo 通過(guò)訓(xùn)練形成一個(gè)策略網(wǎng)絡(luò),將棋盤(pán)上的局勢(shì)作為輸入信息,并對(duì)有所可行的落子位置形成一個(gè)概率分布。然后訓(xùn)練一個(gè)價(jià)值網(wǎng)絡(luò)對(duì)自我對(duì)弈進(jìn)行預(yù)測(cè),以-1(對(duì)手的絕對(duì)勝利)到 1(AlphaGo 的絕對(duì)勝利)的標(biāo)準(zhǔn),預(yù)測(cè)所有可行落子位置的結(jié)果。

和人類(lèi)不同,AlphaGo 沒(méi)有先入為主的概念,這恰恰也是所有圍棋 AI 的優(yōu)勢(shì)所在:盡管有時(shí) AI 的落子顯得違反直覺(jué),但確實(shí)是最合理的。
烏鎮(zhèn)之后,DeepMind 宣布 AlphaGo 從此不會(huì)再參與比賽,但在幾個(gè)月后推出了更強(qiáng)版本的圍棋 AI「AlphaGo Zero」。如果說(shuō) AlphaGo 版本最初還需要觀察數(shù)千場(chǎng)人類(lèi)圍棋比賽來(lái)訓(xùn)練如何學(xué)習(xí)圍棋,AlphaGo Zero 則直接跳過(guò)這一步,從自己完全隨機(jī)的下圍棋開(kāi)始來(lái)學(xué)習(xí)圍棋,幾天之內(nèi)即超越人類(lèi)棋手的水平,并且以 100:0 的比分打敗了之前戰(zhàn)勝世界冠軍的 AlphaGo。
早期的 AlphaGo 使用「決策網(wǎng)絡(luò)」選擇下一步棋的位置,使用「價(jià)值網(wǎng)絡(luò)」預(yù)測(cè)每一個(gè)位置上決定的勝者。這兩個(gè)網(wǎng)絡(luò)在 AlphaGo Zero 中被結(jié)合起來(lái),從而使其更高效地訓(xùn)練和評(píng)估賽況。并且,AlphaGo Zero 版本只需 4 塊 TPU 即可運(yùn)行。

在圍棋 AI 領(lǐng)域,國(guó)內(nèi)研究機(jī)構(gòu)和企業(yè)也在發(fā)力,其中最有代表性的要數(shù)上文中李世石提到的騰訊圍棋 AI「絕藝」。「絕藝」誕生于 2016 年,實(shí)力或僅次于 AlphaGo。
「絕藝」的訓(xùn)練主要包括人類(lèi)棋譜數(shù)據(jù)庫(kù)和機(jī)器自對(duì)弈,它的算法基于策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)兩大核心,并創(chuàng)新性地大幅提升了價(jià)值網(wǎng)絡(luò)的精度,使其大局觀表現(xiàn)更好。在 2018 騰訊世界人工智能?chē)宕筚愔?,「絕藝」在決賽中 7:0 大勝另一款圍棋 AI「星陣」奪冠,半決賽五番棋和決賽七番棋不失一局,賽后「星陣」研發(fā)團(tuán)隊(duì)亦稱(chēng)贊「絕藝」已經(jīng)「達(dá)到了 AlphaGo 的水準(zhǔn)」。
雖然在圍棋的算力上,人類(lèi)已經(jīng)難以與機(jī)器相比,但棋手們可以通過(guò)與 AI 的對(duì)弈不斷提升自己的水平,甚至發(fā)展出更為先進(jìn)的戰(zhàn)術(shù)。據(jù)古力此前透露,「絕藝」已經(jīng)成為中國(guó)國(guó)家圍棋隊(duì)訓(xùn)練專(zhuān)用 AI。
參考鏈接:
https://en.yna.co.kr/view/AEN20191218004052315?section=search
https://en.yna.co.kr/view/AEN20191219007151315?section=sports/index
http://www.hani.co.kr/arti/sports/baduk/921125.html
https://www.nhn.com/ko/pr/pressReleaseDetail.nhn
https://pulsenews.co.kr/view.php?year=2019&no=1014122
本文為機(jī)器之心和騰訊科技聯(lián)合獨(dú)家首發(fā),未經(jīng)授權(quán),請(qǐng)勿轉(zhuǎn)載
機(jī)器之心「SOTA模型」:22大領(lǐng)域、127個(gè)任務(wù),機(jī)器學(xué)習(xí) SOTA 研究一網(wǎng)打盡。

原標(biāo)題:《1:2,李世石最后一戰(zhàn)被AI擊敗,唯一戰(zhàn)勝過(guò)AlphaGo的人退役了》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




