- +1
人機(jī)對(duì)戰(zhàn)又添新領(lǐng)域:這篇論文讓機(jī)器在“你畫我猜”中擊敗你
機(jī)器之心報(bào)道
SketchX 實(shí)驗(yàn)室
「你畫我猜」是一種廣泛流傳在不同文化中的人類通識(shí)游戲,其形式簡(jiǎn)單但高度體現(xiàn)人類的認(rèn)知智慧。近日一篇被計(jì)算機(jī)圖形學(xué)頂會(huì) SIGGRAPH ASIA 2020 接收的論文提出了一種基于草圖的生成優(yōu)化方法。在給定一個(gè)視覺概念的前提下,相較于人類競(jìng)爭(zhēng)者,該模型能夠以相似或更快的速度實(shí)現(xiàn)可識(shí)別的草圖渲染。

在這樣的背景下,AI 能在你畫我猜(Pictionary)游戲中表現(xiàn)優(yōu)異的消息也就沒有那么令人難以置信了。Pictionary 是一個(gè)受猜字游戲啟發(fā)的游戲,需要一個(gè)人粗略地勾勒出視覺畫像,其他人則試圖以最快的速度猜出他/她畫的是什么。這正是英國(guó)薩里大學(xué) SketchX 實(shí)驗(yàn)室的研究人員近期的研究成果:一種對(duì)速度敏感并以競(jìng)爭(zhēng)驅(qū)動(dòng)的草圖生成 AI——Pixelor。即給定一個(gè)視覺概念,Pixelor 能夠像人類競(jìng)爭(zhēng)者一樣快速甚至更快地畫出一幅人類和機(jī)器均能識(shí)別的目標(biāo)對(duì)象草圖。

與人類草圖相關(guān)的計(jì)算機(jī)視覺工作主要集中于判別性任務(wù)的分析,包括基于草圖的識(shí)別 [1]、語義分割 [2]、美化 [3]、3D推理 [4],以及在檢索框架下與現(xiàn)實(shí)圖片的聯(lián)系 [5,6]。直至近期在開創(chuàng)性的工作 SketchRNN 中 [7],AI 首次展示出可以適應(yīng)不同的風(fēng)格和抽象水平、并且像人類一樣逐筆渲染出可識(shí)別草圖的能力。
但這對(duì)于 Pixelor 來說仍然是不夠的。你畫我猜是一個(gè)競(jìng)速類游戲。你可能是一個(gè)偉大的藝術(shù)家,但是如果花費(fèi) 12 個(gè)小時(shí)去畫一只完美的貓,那么你將是一個(gè)糟糕的你畫我猜玩家。
正如Pixelor工作的通訊作者、來自薩里大學(xué)視覺語音和信號(hào)處理中心 (CVSSP) 的教授、SketchX實(shí)驗(yàn)室主任宋一晢 (Yi-Zhe Song) 所言:「對(duì)于Pixelor來說,最重要的是推理出哪些是對(duì)視覺識(shí)別最重要的筆畫,并保證這些筆畫能夠被優(yōu)先盡早地渲染出來。我們已經(jīng)發(fā)布了面向公眾的Pixelor版本。我們希望人類玩家能夠擊敗我們的AI模型,甚至通過與AI的博弈來逐漸提高他們的游戲策略并成為更好的你畫我猜玩家?!?/p>
Pixelor 模型做了什么
Pixelor 是通過兩階段的框架來訓(xùn)練的。
在第一階段,研究人員輸入一個(gè)給定的訓(xùn)練草圖集,并將每個(gè)個(gè)體草圖以隨機(jī)的筆畫順序打亂,其目的是希望學(xué)習(xí)推斷出能夠最大化該訓(xùn)練集早期識(shí)別度的筆畫級(jí)排序。這樣做是因?yàn)槿祟悢?shù)據(jù)中的原始排序并不是最優(yōu)的,這也是人類在你畫我猜的游戲中會(huì)被精心設(shè)計(jì)訓(xùn)練的 Pixelor 打敗的深層原因。
想要實(shí)現(xiàn)更優(yōu)草圖筆畫順序的目標(biāo),一個(gè)顯而易見的策略是詳盡地評(píng)估所有可能的筆畫順序,然而這會(huì)在計(jì)算上產(chǎn)生難以處理的巨大搜索空間。Pixelor 采用了 NeuralSort [8],一種可微分的允許直通梯度 (Straight-through gradients) 反向傳播的排序算法,并用更先進(jìn)的可學(xué)習(xí)感知特征代替了啟發(fā)式損失函數(shù)??偠灾摽蚣芡ㄟ^學(xué)習(xí)筆劃評(píng)分策略避開了筆劃順序的組合搜索,進(jìn)而實(shí)現(xiàn)了早期識(shí)別。
在第二階段,Pixelor 根據(jù)上述經(jīng)過最佳筆畫順序更新的數(shù)據(jù)集,來訓(xùn)練序列到序列的草圖生成模型。不同于之前 SketchRNN 模型的是,研究人員提出用最佳傳輸距離 (optimal transport) 替代基于KL散度的方式(常見于變量自編碼器中)來約束嵌入特征空間。這種設(shè)計(jì)選擇是基于對(duì)人類手繪行為的直觀觀察。面對(duì)同一個(gè)視覺概念,雖然不同的個(gè)體可能在你畫我猜游戲中展現(xiàn)相似的競(jìng)技性,但他們?nèi)匀粫?huì)有不同的草圖策略。這使得筆畫序列空間本質(zhì)上是多模態(tài)分布的,而最佳傳輸距離可以更好地捕捉這種分布。
Pixelor,遠(yuǎn)不止游戲
Pixelor 的意義,不僅僅是又一個(gè)會(huì)玩游戲的新 AI。就像計(jì)算機(jī)系統(tǒng)既有我們交互的用戶界面,又有后臺(tái)代碼一樣。每一個(gè)重要的 AI 游戲里程碑背后都有著更深層次的考量。實(shí)驗(yàn)室花費(fèi)大量的時(shí)間和人力物力,不是為了在人類不再擅長(zhǎng)的事情列表上再增加一項(xiàng),而是為了完善人工智能的基礎(chǔ)能力,以用于解決現(xiàn)實(shí)問題。
在 Pixelor 的案例中,研究人員的最終目標(biāo)是讓機(jī)器能夠更好地弄清楚在特定場(chǎng)景中什么對(duì)人類來說是重要的。當(dāng)我們看一張圖片時(shí),我們馬上就能知道最需要注意的部分是什么。
比如,當(dāng)你下班開車回家的時(shí)候。雖然路邊的風(fēng)景如畫,遠(yuǎn)處的廣告牌也可能很有趣,但這都不如你面前可能隨時(shí)出現(xiàn)的行人重要。在你有意識(shí)地處理這些信息之前,大腦就已經(jīng)把最重要的細(xì)節(jié)挑了出來。

一個(gè)優(yōu)秀的你畫我猜玩家,就像一個(gè)優(yōu)秀的拳擊手一樣,需要知道達(dá)成某一目標(biāo)所需要的絕對(duì)最短路徑。從宏觀上看,這一點(diǎn)正是這篇 SIGGRAPH AISA 2020 論文的更大意義。這不僅僅是教會(huì) AI 玩一項(xiàng)游戲那么簡(jiǎn)單,而是懷有一種更大的愿景:讓AI學(xué)會(huì)推理圖像場(chǎng)景中的重要之處,并能夠更好地泛化。從自動(dòng)駕駛到智能機(jī)器人,這都是一項(xiàng)亟需解決的任務(wù)。

Pixelor項(xiàng)目主頁:http://sketchx.ai/pixelor
SketchX實(shí)驗(yàn)室主頁:http://sketchx.ai
薩里大學(xué)CVSSP主頁:https://www.surrey.ac.uk/centre-vision-speech-signal-processing
參考文獻(xiàn)
[1] Qian Yu, Yongxin Yang, Yi-Zhe Song, Xiang Tao, and Timothy M. Hospedales. Sketch-a-net that beats humans. BMVC 2015. (Best Science Paper Prize)
[2] Rosália G Schneider and Tinne Tuytelaars. Example-based sketch segmentation and labeling using crfs. SIGGRAPH 2016.
[3] Mikhail Bessmeltsev and Justin Solomon. Vectorization of line drawings via polyvector fields. SIGGRAPH 2019.
[4] Wanchao Su, Dong Du, Xin Yang, Shizhe Zhou, and Hongbo Fu. Interactive sketch-based normal map generation with deep neural networks. ACM on Computer Graphics and Interactive Techniques 2018.
[5] Qian Yu, Feng Liu, Yi-Zhe Song, Tao Xiang, Timothy M. Hospedales, and Chen Change Loy. Sketch Me That Shoe. CVPR 2016.
[6] Patsorn Sangkloy, Nathan Burnell, Cusuh Ham, and James Hays. The sketchy database: learning to retrieve badly drawn bunnies. SIGGRAPH 2016.
[7] David Ha and Douglas Eck. A Neural Representation of Sketch Drawings. ICLR 2018.
[8] Aditya Grover, Eric Wang, Aaron Zweig, and Stefano Ermon. Stochastic Optimization of Sorting Networks via Continuous Relaxations. ICLR 2019.
原標(biāo)題:《人機(jī)對(duì)戰(zhàn)又添新領(lǐng)域:這篇SIGGRAPH AISA 2020論文讓機(jī)器在「你畫我猜」中擊敗你》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




