人機(jī)對(duì)戰(zhàn)又添新領(lǐng)域：這篇論文讓機(jī)器在“你畫我猜”中擊敗你

2020-10-24 12:47

來源：澎湃新聞·澎湃號(hào)·湃客

聽全文

機(jī)器之心報(bào)道

SketchX 實(shí)驗(yàn)室

「你畫我猜」是一種廣泛流傳在不同文化中的人類通識(shí)游戲，其形式簡(jiǎn)單但高度體現(xiàn)人類的認(rèn)知智慧。近日一篇被計(jì)算機(jī)圖形學(xué)頂會(huì) SIGGRAPH ASIA 2020 接收的論文提出了一種基于草圖的生成優(yōu)化方法。在給定一個(gè)視覺概念的前提下，相較于人類競(jìng)爭(zhēng)者，該模型能夠以相似或更快的速度實(shí)現(xiàn)可識(shí)別的草圖渲染。

近幾十年來，AI 在越來越多的游戲中逐漸達(dá)到了能夠與人類同臺(tái)競(jìng)技的水平。從 1997 年在國(guó)際象棋比賽中勝出的 Deep Blue 到 2011 年在電視智力競(jìng)賽項(xiàng)目 Jeopardy 中大放異彩的 IBM Watson，從 2013 年 DeepMind 開發(fā)的能夠勝任各種 Atari 小游戲的程序到 2016 年所向披靡戰(zhàn)勝職業(yè)圍棋選手的 AlphaGo。至少對(duì)于公眾來說，每一個(gè)實(shí)例都把技術(shù)的突破和抽象計(jì)算的進(jìn)步變成了一場(chǎng)具有觀賞性的運(yùn)動(dòng)。

在這樣的背景下，AI 能在你畫我猜（Pictionary）游戲中表現(xiàn)優(yōu)異的消息也就沒有那么令人難以置信了。Pictionary 是一個(gè)受猜字游戲啟發(fā)的游戲，需要一個(gè)人粗略地勾勒出視覺畫像，其他人則試圖以最快的速度猜出他/她畫的是什么。這正是英國(guó)薩里大學(xué) SketchX 實(shí)驗(yàn)室的研究人員近期的研究成果：一種對(duì)速度敏感并以競(jìng)爭(zhēng)驅(qū)動(dòng)的草圖生成 AI——Pixelor。即給定一個(gè)視覺概念，Pixelor 能夠像人類競(jìng)爭(zhēng)者一樣快速甚至更快地畫出一幅人類和機(jī)器均能識(shí)別的目標(biāo)對(duì)象草圖。

將現(xiàn)實(shí)世界復(fù)雜的圖像還原成草圖，是令人印象深刻的。這需要很強(qiáng)的抽象能力：把人臉看作一個(gè)橢圓形，并由兩個(gè)更小的橢圓形組成眼睛，一條彎曲的線段作為鼻子以及一個(gè)半圓形去模擬嘴巴。這種感知圖像的方式通常是孩子們快速發(fā)展認(rèn)知理解能力的重要特征之一。然而就像莫拉維克悖論 (Moravec's Paradox) 所總結(jié)的那樣，「對(duì)人類十分棘手的問題對(duì)計(jì)算機(jī)來說通常較為簡(jiǎn)單，而對(duì)人類來說非常容易的事計(jì)算機(jī)則極難處理」。抽象感知，這種看似大多數(shù)兩歲孩童與生俱來的基本技能，對(duì)于機(jī)器智能來說則是一項(xiàng)巨大的挑戰(zhàn)。

與人類草圖相關(guān)的計(jì)算機(jī)視覺工作主要集中于判別性任務(wù)的分析，包括基于草圖的識(shí)別 [1]、語義分割 [2]、美化 [3]、3D推理 [4]，以及在檢索框架下與現(xiàn)實(shí)圖片的聯(lián)系 [5,6]。直至近期在開創(chuàng)性的工作 SketchRNN 中 [7]，AI 首次展示出可以適應(yīng)不同的風(fēng)格和抽象水平、并且像人類一樣逐筆渲染出可識(shí)別草圖的能力。

但這對(duì)于 Pixelor 來說仍然是不夠的。你畫我猜是一個(gè)競(jìng)速類游戲。你可能是一個(gè)偉大的藝術(shù)家，但是如果花費(fèi) 12 個(gè)小時(shí)去畫一只完美的貓，那么你將是一個(gè)糟糕的你畫我猜玩家。

正如Pixelor工作的通訊作者、來自薩里大學(xué)視覺語音和信號(hào)處理中心 (CVSSP) 的教授、SketchX實(shí)驗(yàn)室主任宋一晢 (Yi-Zhe Song) 所言：「對(duì)于Pixelor來說，最重要的是推理出哪些是對(duì)視覺識(shí)別最重要的筆畫，并保證這些筆畫能夠被優(yōu)先盡早地渲染出來。我們已經(jīng)發(fā)布了面向公眾的Pixelor版本。我們希望人類玩家能夠擊敗我們的AI模型，甚至通過與AI的博弈來逐漸提高他們的游戲策略并成為更好的你畫我猜玩家?！?/p>

Pixelor 模型做了什么

Pixelor 是通過兩階段的框架來訓(xùn)練的。

在第一階段，研究人員輸入一個(gè)給定的訓(xùn)練草圖集，并將每個(gè)個(gè)體草圖以隨機(jī)的筆畫順序打亂，其目的是希望學(xué)習(xí)推斷出能夠最大化該訓(xùn)練集早期識(shí)別度的筆畫級(jí)排序。這樣做是因?yàn)槿祟悢?shù)據(jù)中的原始排序并不是最優(yōu)的，這也是人類在你畫我猜的游戲中會(huì)被精心設(shè)計(jì)訓(xùn)練的 Pixelor 打敗的深層原因。

想要實(shí)現(xiàn)更優(yōu)草圖筆畫順序的目標(biāo)，一個(gè)顯而易見的策略是詳盡地評(píng)估所有可能的筆畫順序，然而這會(huì)在計(jì)算上產(chǎn)生難以處理的巨大搜索空間。Pixelor 采用了 NeuralSort [8]，一種可微分的允許直通梯度 (Straight-through gradients) 反向傳播的排序算法，并用更先進(jìn)的可學(xué)習(xí)感知特征代替了啟發(fā)式損失函數(shù)?？偠灾摽蚣芡ㄟ^學(xué)習(xí)筆劃評(píng)分策略避開了筆劃順序的組合搜索，進(jìn)而實(shí)現(xiàn)了早期識(shí)別。

在第二階段，Pixelor 根據(jù)上述經(jīng)過最佳筆畫順序更新的數(shù)據(jù)集，來訓(xùn)練序列到序列的草圖生成模型。不同于之前 SketchRNN 模型的是，研究人員提出用最佳傳輸距離 (optimal transport) 替代基于KL散度的方式（常見于變量自編碼器中）來約束嵌入特征空間。這種設(shè)計(jì)選擇是基于對(duì)人類手繪行為的直觀觀察。面對(duì)同一個(gè)視覺概念，雖然不同的個(gè)體可能在你畫我猜游戲中展現(xiàn)相似的競(jìng)技性，但他們?nèi)匀粫?huì)有不同的草圖策略。這使得筆畫序列空間本質(zhì)上是多模態(tài)分布的，而最佳傳輸距離可以更好地捕捉這種分布。

Pixelor，遠(yuǎn)不止游戲

Pixelor 的意義，不僅僅是又一個(gè)會(huì)玩游戲的新 AI。就像計(jì)算機(jī)系統(tǒng)既有我們交互的用戶界面，又有后臺(tái)代碼一樣。每一個(gè)重要的 AI 游戲里程碑背后都有著更深層次的考量。實(shí)驗(yàn)室花費(fèi)大量的時(shí)間和人力物力，不是為了在人類不再擅長(zhǎng)的事情列表上再增加一項(xiàng)，而是為了完善人工智能的基礎(chǔ)能力，以用于解決現(xiàn)實(shí)問題。

在 Pixelor 的案例中，研究人員的最終目標(biāo)是讓機(jī)器能夠更好地弄清楚在特定場(chǎng)景中什么對(duì)人類來說是重要的。當(dāng)我們看一張圖片時(shí)，我們馬上就能知道最需要注意的部分是什么。

比如，當(dāng)你下班開車回家的時(shí)候。雖然路邊的風(fēng)景如畫，遠(yuǎn)處的廣告牌也可能很有趣，但這都不如你面前可能隨時(shí)出現(xiàn)的行人重要。在你有意識(shí)地處理這些信息之前，大腦就已經(jīng)把最重要的細(xì)節(jié)挑了出來。

而如何教會(huì)計(jì)算機(jī)做到這一點(diǎn)呢？一個(gè)好的起點(diǎn)就是尋找人類在手繪時(shí)如何優(yōu)先考慮頭腦影像中突出的可識(shí)別細(xì)節(jié)?！?jìng)鹘y(tǒng)照片中并沒有人類的主觀輸入，我們想要的是人類數(shù)據(jù)。而手繪的過程正是體現(xiàn)了人類理解與表達(dá)視覺場(chǎng)景的方式。」宋一晢教授如是說。

一個(gè)優(yōu)秀的你畫我猜玩家，就像一個(gè)優(yōu)秀的拳擊手一樣，需要知道達(dá)成某一目標(biāo)所需要的絕對(duì)最短路徑。從宏觀上看，這一點(diǎn)正是這篇 SIGGRAPH AISA 2020 論文的更大意義。這不僅僅是教會(huì) AI 玩一項(xiàng)游戲那么簡(jiǎn)單，而是懷有一種更大的愿景：讓AI學(xué)會(huì)推理圖像場(chǎng)景中的重要之處，并能夠更好地泛化。從自動(dòng)駕駛到智能機(jī)器人，這都是一項(xiàng)亟需解決的任務(wù)。

論文地址：https://ayankumarbhunia.github.io/pixelor/image/pixelor.pdf

Pixelor項(xiàng)目主頁：http://sketchx.ai/pixelor

SketchX實(shí)驗(yàn)室主頁：http://sketchx.ai

薩里大學(xué)CVSSP主頁：https://www.surrey.ac.uk/centre-vision-speech-signal-processing

參考文獻(xiàn)

[1] Qian Yu, Yongxin Yang, Yi-Zhe Song, Xiang Tao, and Timothy M. Hospedales. Sketch-a-net that beats humans. BMVC 2015. (Best Science Paper Prize)

[2] Rosália G Schneider and Tinne Tuytelaars. Example-based sketch segmentation and labeling using crfs. SIGGRAPH 2016.

[3] Mikhail Bessmeltsev and Justin Solomon. Vectorization of line drawings via polyvector fields. SIGGRAPH 2019.

[4] Wanchao Su, Dong Du, Xin Yang, Shizhe Zhou, and Hongbo Fu. Interactive sketch-based normal map generation with deep neural networks. ACM on Computer Graphics and Interactive Techniques 2018.

[5] Qian Yu, Feng Liu, Yi-Zhe Song, Tao Xiang, Timothy M. Hospedales, and Chen Change Loy. Sketch Me That Shoe. CVPR 2016.

[6] Patsorn Sangkloy, Nathan Burnell, Cusuh Ham, and James Hays. The sketchy database: learning to retrieve badly drawn bunnies. SIGGRAPH 2016.

[7] David Ha and Douglas Eck. A Neural Representation of Sketch Drawings. ICLR 2018.

[8] Aditya Grover, Eric Wang, Aaron Zweig, and Stefano Ermon. Stochastic Optimization of Sorting Networks via Continuous Relaxations. ICLR 2019.

原標(biāo)題：《人機(jī)對(duì)戰(zhàn)又添新領(lǐng)域：這篇SIGGRAPH AISA 2020論文讓機(jī)器在「你畫我猜」中擊敗你》

閱讀原文

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#人機(jī)對(duì)戰(zhàn)