下載客戶端

登錄

周伯文對話斯坦福教授曼寧：人機對話智能新進展需要新“圖靈測試”

2020-06-29 15:46

來源：澎湃新聞·澎湃號·湃客

原創(chuàng) Synced 機器之心

機器之心報道

機器之心編輯部

6 月 22 日，在 2020 智源大會上，有一場大佬對大佬的精彩會談。

過去一年里，人工智能進展最大的方向在自然語言處理（NLP），BERT、GPT-2 等預(yù)訓(xùn)練模型引領(lǐng)了很多方向的新時代，又催生出了大量商業(yè)應(yīng)用機會。面對技術(shù)的進步，AI 領(lǐng)域的頂級學(xué)者和從業(yè)高管是如何看待未來前景的？近日，2020 智源大會在線上召開，在為期四天的會議中，5 位圖靈獎得主、上百位業(yè)內(nèi)專家在 19 個專題論壇云上共同暢想了人工智能的下一個十年。

在智源大會上，京東集團技術(shù)委員會主席、京東智聯(lián)云總裁、京東人工智能研究院院長、IEEE Fellow 周伯文與斯坦福大學(xué)教授、人工智能實驗室負(fù)責(zé)人克里斯托弗 · 曼寧（Christopher Manning）展開了一次精彩的交流。他們討論了自然語言處理領(lǐng)域近期的進展，預(yù)訓(xùn)練模型興起之后的未來發(fā)展方向，甚至還為人工智能的標(biāo)桿評測基準(zhǔn)——圖靈測試找到了一個「替代方案」。

在交流過程中，兩人也提及了京東最近被人工智能頂會 ACL-2020 接收的研究，以及曼寧剛剛發(fā)表的工作，有關(guān)預(yù)訓(xùn)練模型學(xué)習(xí)到的語言結(jié)構(gòu)。

在過去這一年中，我們見證了許多 NLP 領(lǐng)域的技術(shù)成果和場景落地。對此，人工智能著名學(xué)者克里斯托弗 · 曼寧和京東集團技術(shù)「掌門人」周伯文是如何看待的？讓我們一探究竟。

語言理解 & 人機對話領(lǐng)域過去一年的進展

周伯文與曼寧在對話伊始回顧了在 2019 年智源大會上尖峰對話中達成的共識：任務(wù)導(dǎo)向的多輪對話是 NLP 下一個十年重點的研究和應(yīng)用方向。周伯文還創(chuàng)造了一個新詞「任務(wù)導(dǎo)向型對話智能」（Task-oriented Conversational Intelligence），一方面，任務(wù)導(dǎo)向型對話智能可以反向推動許多基礎(chǔ)技術(shù)能力的進步，另一方面，它的發(fā)展也將對經(jīng)濟方面產(chǎn)生巨大影響，帶來人機交互技術(shù)驅(qū)動的萬億級市場。

在語言理解 & 人機對話領(lǐng)域過去一年的進展層面上，周伯文和曼寧不約而同提到了「最令人印象深刻的就是人們見證了超大規(guī)模預(yù)訓(xùn)練語言模型的出現(xiàn)，它們可以生成有組織的語言文字表達，」

曼寧表示：「其中的代表就是 GPT-2 和 GPT-3，也包含 BERT、RoBERTA 和 ALBERT、ERNIE 等等不少 BERT 變種。它們使得自然語言理解與生成有了非常大的發(fā)展。我們也看到傳統(tǒng) AI 領(lǐng)域有了很大轉(zhuǎn)變，很多任務(wù)目前都傾向于被大型模型來解決?！?/p>

人工智能發(fā)展的 40 多年來，我們一直在努力試圖讓 AI 可以回答科學(xué)問題。我們過去嘗試使用的思路是研究知識的表達方法，阿蘭圖靈實驗室的 Aristo Project 試圖讓 AI 理解科學(xué)道理，進而深度理解世界，這一思路在最初的十年推動了知識的表達與推理。

在 2020 年，我們通過超大尺寸模型實現(xiàn)了巨大的進步?；?RoBERTa 預(yù)訓(xùn)練模型，我們可以實現(xiàn) 95% 的科學(xué)問題回答準(zhǔn)確率，這看起來是目前解決知識問題的最好方法了。

這些進步為新一輪商業(yè)應(yīng)用打開了道路?！肝磥淼姆较螂m然還無法確定，但我們可以看到基于預(yù)訓(xùn)練語言模型，為搜索引擎公司等科技企業(yè)帶來了很多新商業(yè)機會，」曼寧表示?！杆麄兛梢詫崿F(xiàn)近十年來最大的單個技術(shù)進步，構(gòu)建更好的機器翻譯系統(tǒng)，對話 AI，人工智能客服系統(tǒng)等等?，F(xiàn)在，我們正在經(jīng)歷 NLP 領(lǐng)域激動人心的時刻?！?/p>

NLP 領(lǐng)域最近發(fā)生了從特定任務(wù)模型向多任務(wù)，大規(guī)模預(yù)訓(xùn)練模型方向轉(zhuǎn)變的重要變化。一方面，工業(yè)界樂于看到 BERT 這樣模型在下游應(yīng)用上的前景。但對于學(xué)界研究者來說，這種發(fā)展大大提高了新研究的門檻?？纯?GPT-2 到 GPT-3，它的參數(shù)從 15 億增加到了 1750 億。但如果仔細觀察的話，你會發(fā)現(xiàn)模型對知識的獲取和推理性能的提高，可沒有參數(shù)增加的數(shù)量那么多。

針對這一問題，周伯文指出「在查看 GPT-2、GPT-3 相關(guān)論文后，有一件事情引起了我的注意，那就是 - 當(dāng)我們從零樣本學(xué)習(xí) (zero-shot) 到單樣本 (one-shot) 學(xué)習(xí)時，我認(rèn)為 GPT-3 改進了很多。這有效證明了，從小型模型轉(zhuǎn)換為大型模型時，預(yù)訓(xùn)練等于更多的信息。」

與此同時，周伯文發(fā)現(xiàn)，從單樣本 (one-shot) 學(xué)習(xí)過渡到少樣本 (few-shot) 學(xué)習(xí)時，GPT-3 或 GPT-2 的改進非常非常有限。周伯文指出：「我認(rèn)為這從另一方面證明，這些更大規(guī)模的模型可能并沒有學(xué)習(xí)到足夠多的信息?！?/p>

由此觀之，知識的獲取和表征可能仍是 NLP 的正確方向。

曼寧認(rèn)為，目前的大規(guī)模預(yù)訓(xùn)練模型可能存在一些「根本性」的錯誤——這些模型非常低效率。從現(xiàn)實世界人們的對話中學(xué)習(xí)知識的表征，總不是一個好方法?？赡?5 年后人們往回看就會嘲笑現(xiàn)在的工作：「看看這些人吧，只想著把模型做得越來越大就妄想能夠?qū)崿F(xiàn)人工智能了?！?/p>

對于研究者來說，我們必須尋找更加有趣的，讓模型可以思考、能夠更高效提取知識的方法。某種程度上，人們應(yīng)該需要找到更好的知識編碼機制，這有關(guān)知識空間，語義連接的更好表達方式。這可能和傳統(tǒng) NLP 的知識圖譜和知識表征有關(guān)。所以讓模型記憶和推斷真實世界的情況，看起來從基礎(chǔ)上就不是一個正確的，高效的方法。

「人類不是通過這種方法學(xué)習(xí)知識的。人類存儲的知識很少，但可以理解大量知識。」曼寧說道。

GPT-3 通過高達 1750 億參數(shù)實現(xiàn)了其他模型無法匹敵的文本生成效果。

作為一個在該領(lǐng)域中務(wù)實的研究人員，周伯文非常關(guān)注最近預(yù)訓(xùn)練的大規(guī)模語言模型以及對語言任務(wù)進行微調(diào)的功能。在一個月前放榜的自然語言處理頂會 ACL 2020 上，周伯文等人有兩篇論文被接收。

「在論文《Orthogonal Relation Transforms with Graph Context Modeling for Knowledge Graph Embedding》中，我們得出的結(jié)論是通過預(yù)訓(xùn)練模型，我們可以生成非常自然的商品介紹，內(nèi)容來自預(yù)訓(xùn)練模型，還有圖片、知識圖譜和用戶的評價，」周伯文表示。

另一個例子是在論文《Self-Attention Guided Copy Mechanism for Abstractive Summarization》中，自注意力機制（self-attention）可以幫助我們在對話任務(wù)和文本摘要任務(wù)上，生成了更多更自然的語句。

據(jù)了解，京東智聯(lián)云在跨模態(tài)內(nèi)容生成上已取得諸多成果，并正式應(yīng)用到京東的業(yè)務(wù)流程中。目前京東智聯(lián)云打造的智能寫作產(chǎn)品，是基于商品圖譜和語言模型構(gòu)建的營銷內(nèi)容智能生成服務(wù)，在 2020 年京東 618 期間，已覆蓋京東零售過半數(shù)的商品品類，創(chuàng)作出的導(dǎo)購素材，曝光點擊率相較于人工撰寫的內(nèi)容高出 40%，讓用戶在大促高峰期間也享受到優(yōu)質(zhì)服務(wù)。

這樣一些接近實用化的方向已經(jīng)受到了 NLP 新范式的幫助。毫無疑問，使用預(yù)訓(xùn)練的模型現(xiàn)在可以生成很自然的文本以及對話。但目前的預(yù)訓(xùn)練模型還稱不上完美，曼寧指出，我們還沒法控制這些模型生成的內(nèi)容。

超越圖靈測試的 AI 新基準(zhǔn)

若想實現(xiàn)更好的人工智能，我們必須擁有完美的評測基準(zhǔn)（Benchmark），幾十年以來我們一直將圖靈測試作為「真正人工智能」的測試標(biāo)準(zhǔn)。但圖靈測試是以 AI 模仿人類，試圖「欺騙」測試者進行無特定內(nèi)容對話的形式來進行的。對于研究者來說，這個過程一直存在難以量化的問題。

在 NLP 技術(shù)發(fā)展多年后的今天，「我們會不會出現(xiàn)可以代替圖靈測試的新基準(zhǔn)呢？」周伯文在對話中提出了這個問題，「過去的幾十年中，圖靈測試一直是基準(zhǔn)，但是在日常研究中，它讓我們的研究目標(biāo)變得明確，對結(jié)果推動又沒有太多直接的幫助?！?/p>

「這個問題很有趣，也很難回答，」曼寧表示?！肝彝膺@個看法——圖靈測試不是非常清楚的基準(zhǔn)。某種程度上我們需要找一個另外的方法，標(biāo)量真正的理解、真正的持續(xù)對話。但我一時沒法給出完美的答案?！?/p>

不過周伯文有一個「稍顯瘋狂」的主意，有關(guān)最近正火的直播帶貨：熱門主播幾個小時可以帶幾千萬元的貨。這種互動形式看起來非常吸引人，究其根本，它是一個實時的、富有交互性的方式。在這里播主和觀眾用彈幕和語音實時交流，這似乎為對話型 AI 提出了更多的要求。

原本的圖靈測試，不會預(yù)先指出被測試者的身份，通過評判相似性去界定智能化水平；那么，我們是不是可以直接公開使用兩個對話型 AI 做直播帶貨，通過統(tǒng)計以每小時能賣出多少商品的可量化指標(biāo)來對比哪個 AI 的對話更吸引人，從而評估對話型 AI 的智能化水平？

這樣的話，所有評價指標(biāo)都可以量化，形式也非常接近于真實世界。

「這是一個非常有趣的想法，可以帶來非常清楚的評價指標(biāo)，」曼寧表示?！钢辈τ谖襾碚f是一個很新鮮的概念，某種程度上來說，這是一個非常直接的評價方式。我不清楚是否完美，但它很有創(chuàng)意：一個人類銷售想要成功，并不取決于對潛在消費者傳遞信息的完美平衡，有時還需要提出超出實際一點點的主張，更加強烈地表達自己的觀點?！?/p>

周伯文表示，在未來幾個月里，京東會對這個方向進行一些嘗試和研究。

學(xué)術(shù)界如何在預(yù)訓(xùn)練時代引領(lǐng)前瞻性研究

今天的人工智能研究正憑借算力的增長而快速發(fā)展，隨著模型體量的增加，學(xué)界研究者面臨的挑戰(zhàn)越來越大。對于研究者們來說，即使希望方法足夠創(chuàng)新，也會在大會上宣講論文時受到這樣的挑戰(zhàn)：「你使用的基準(zhǔn)是最新的嗎？」這意味著你不得不直面大量數(shù)據(jù)。

周伯文表示：「近來，我常被問到一個問題，在如今的云計算 + AI 時代，研究人員和學(xué)者如何跟上？」

據(jù)了解，2019 年底，京東整合云計算、人工智能、物聯(lián)網(wǎng)業(yè)務(wù)資源，形成京東云與 AI 事業(yè)部，并于 3 月 5 日面向技術(shù)服務(wù)領(lǐng)域推出全新的「京東智聯(lián)云」品牌。在剛剛過去的京東 618，京東智聯(lián)云提供了全面、穩(wěn)定、安全、可信賴的技術(shù)保障，成為京東 618 的技術(shù)基石，并秉持著「成為最值得信賴的智能技術(shù)提供者」的愿景，對外輸出更多、更好、更融合、更場景化的技術(shù)與服務(wù)。

目前云服務(wù)在商業(yè)公司中的布局已日趨成熟。那么在斯坦福大學(xué)，教授們是怎樣平衡增量創(chuàng)新與理論創(chuàng)新的？研究者們是如何使用算力的？

「近年來我們的工作方式有了很大變化。在 20 年前，大學(xué)里才有最大的超級計算機、最快的網(wǎng)絡(luò)。但在最近這些年里，情況有了翻天覆地的變化——現(xiàn)在算力都在商業(yè)公司那里了，」曼寧說道。

如何解決算力不足的問題，每所大學(xué)都有不少思路，最直接的方式就是購買數(shù)量有限的，當(dāng)前最頂配的 GPU，讓很多博士生共用以滿足 80% 時間的需求?！肝蚁脒@是很多大學(xué)都在使用的方法，如果你的實驗室里有 20 名博士生，這要比每人配置一臺機器節(jié)省三倍成本，」曼寧表示?！脯F(xiàn)在我們構(gòu)建起了小型集群，斯坦福 NLP 實驗室有 15 名研究者，我們有大約 100 塊 GPU。你看，這不是一個很大的數(shù)字?！?/p>

另一個思路就是和京東智聯(lián)云這樣的科技公司合作，在一些需要更多計算的研究中，斯坦福也在購買云端算力。

每年冬天，曼寧都會親自為斯坦福 NLP 大課 CS224N 授課。這門課可以吸引 500 名學(xué)生，他們的作業(yè)都需要使用 CPU、GPU 來訓(xùn)練模型，而所有學(xué)生在課程期間的算力需求是大學(xué)負(fù)擔(dān)不起的。因此，斯坦福接受業(yè)界的捐贈。

斯坦福的自然語言處理課程 CS224n 與計算機視覺課程 CS231n 齊名，是 AI 領(lǐng)域最具影響力的公開課程之一。

最后，研究方向也是個問題。「讓模型越來越大可能在最近五年可以實現(xiàn)很大的進展，但在下個十年就不一定了，」曼寧說道?！肝覀儸F(xiàn)在可以構(gòu)建出更大的模型，然后發(fā)出論文。但這個對于基礎(chǔ)方向的研究沒有什么幫助。未來 5-7 年里可能會出現(xiàn)一個窗口，最聰明的研究者可以用普通電腦和 GPU 構(gòu)建出 SOTA 模型，打敗大公司的巨大模型?！?/p>

「但未來也有可能不是這樣，看看其他行業(yè)，如果你是個機械工程的 PhD，你肯定沒法上來就蓋世界最高的摩天大樓，如果你是個航空工程學(xué)生，你肯定不會試圖造一架比波音還好的飛機。你需要做的是尋找新的想法?！?/p>

研究學(xué)者需要更加注重于尋找具有開創(chuàng)性的新想法，并提出原型。舉個例子：機器學(xué)習(xí)領(lǐng)域里的 Dropout，其實是在很小的數(shù)據(jù)集上首次實踐的。

構(gòu)建可信賴的 AI：可解釋性和真實世界的魯棒性

最近一段時間，周伯文曾在多個不同場合表達了對于可信賴的 AI（Trustworthy AI）的看法，并指出可信賴的 AI 將是智能經(jīng)濟未來 10 年的新原點。

目前有關(guān)可信賴的 AI 已經(jīng)達成 6 個共識，包含公平、魯棒性（技術(shù)的可用性）、價值對齊（技術(shù)提供者、使用者和產(chǎn)品應(yīng)用方都認(rèn)為產(chǎn)品帶來價值）、可復(fù)制、可解釋以及負(fù)責(zé)任。構(gòu)建可信賴的 AI 一面是對技術(shù)的巨大挑戰(zhàn)，一面是人文精神，無論是京東智能情感客服傳遞溫暖、亦或京東物流設(shè)施傳遞信賴，都是對人類的社會責(zé)任與價值體現(xiàn)。

曼寧認(rèn)為，人工智能學(xué)界目前在可解釋性方面已經(jīng)取得了一些進展。一方面是像 transformer 這樣的預(yù)訓(xùn)練模型，注意力機制帶來的好處——這些模型具有相當(dāng)高的可解釋性。

「我的一些學(xué)生發(fā)表過論文試圖解讀 BERT 的運作機制?，F(xiàn)在，我們已能夠?qū)@些模型進行大量解碼，并看到這些模型不僅是巨大的聯(lián)想學(xué)習(xí)機器，而且它們實際上是在學(xué)習(xí)人類語言的結(jié)構(gòu)，其解句子的語法結(jié)構(gòu)，了解哪些詞是指同一實體，」曼寧說道。

因此，我們已經(jīng)能夠獲得模型內(nèi)部的可解釋性，這意味著模型可以對其整體行為做出某種決定的原因做出一些解釋。當(dāng)然，這里還有很多工作要做，斯坦福研究者們正進行的工作希望就驅(qū)動模型決策的特征進行解釋。

曼寧教授在 6 月份還以第一作者的形式發(fā)表了論文《Emergent linguistic structure in artificial neural networks trained by self-supervision》，其中寫到預(yù)訓(xùn)練模型實際上可以學(xué)習(xí)語言結(jié)構(gòu)，不需要任何監(jiān)督。這解釋了為什么大規(guī)模的模型是可行的。但是對于下一步如何更好的理解他們是怎么學(xué)習(xí)到的，這個目前還不太清楚，周伯文指出「這部分需要可信賴的 AI 來解決」。

這些發(fā)現(xiàn)非常令人興奮。之前我們總是認(rèn)為想讓 AI 在某些任務(wù)上工作良好，需要是大型有監(jiān)督模型。因此我們總是以大量資金、雇傭很多人進行數(shù)據(jù)標(biāo)注開始。這是過去 20 年來的工作范式，人們也是通過這種形式在某些任務(wù)上讓 NLP 模型達到接近人類水平的。

「如果下一代人工智能機器本質(zhì)上和十年前一樣，而考慮到訓(xùn)練的內(nèi)容大幅增加，我們實際上是倒退了，而不是前進了，」曼寧說道。

「從技術(shù)角度來看，我將專注于嘗試提高 NLP 的魯棒性以及可解釋性。在 NLP 領(lǐng)域中，如果了解 NLP 的結(jié)構(gòu)，了解 NLP 的語義，將是人們構(gòu)建可信任 AI 向前邁進的一大步，」周伯文表示?！溉绾晤A(yù)測下一個單詞的過程對于人們來說還是一個黑箱。另一個方向是可擴展性，當(dāng)我們從一個任務(wù)轉(zhuǎn)移到另一個任務(wù)時，模型需要遷移得足夠好。無論如何，可信賴的 AI 非常重要。如果我們可以在這個領(lǐng)域取得更大的進步，AI 市場和 AI 應(yīng)用將變得越來越大、越來越多，并且適應(yīng)性也將大大提高。因此，這將是我們長期關(guān)注的重點。」

2020 智源 - 京東多模態(tài)對話挑戰(zhàn)大賽

在 2019 年，京東舉辦了 JDDC 對話大賽，去年的主題是 Knowledge-enhanced Task-Oriented Dialogue，今年在智源大會上舉辦的對話大賽則主要關(guān)注對話中的多模態(tài)交互，即研究如何更好的理解對話中的多模態(tài)信息，產(chǎn)生 Task-Oriented Conversational response。

本次競賽的數(shù)據(jù)來自于脫敏后的京東真實客服對話日志，共包含約 200 萬輪次的對話，其中用戶問題涉及約圖片約 50 萬張。

周伯文介紹到，為支持參賽隊伍更好的比賽，本次大賽還提供了約 3 萬商品的小型商品知識庫，和 2 萬張圖片的標(biāo)注數(shù)據(jù)。大賽開始三周，到目前為止已有超過 400 人參加比賽。

曼寧對于這場比賽的成功舉辦表示興奮：「這場比賽非?；馃?，人類在這樣的對話中扮演的角色也非常重要。顯然作為人類，對話不是所有——我們還會使用背景知識和其他感覺。我認(rèn)為這次我們將看到自然語言處理中很多 NLP 領(lǐng)域中奠定基礎(chǔ)的新思想，有關(guān) NLP 與對話發(fā)生環(huán)境、領(lǐng)域知識，以及理解和生成?！?p>

這場連接京東大廈和斯坦福校園的對話，給我們帶來了很多啟發(fā)。由于新冠疫情的影響，周伯文與曼寧無法進行面對面的交談，不過兩人已經(jīng)開始期待下一次的見面了。

不知下次見面時，人工智能技術(shù)將會出現(xiàn)哪些大發(fā)展？

本文為機器之心報道，轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。

?------------------------------------------------

加入機器之心（全職記者 / 實習(xí)生）：hr@jiqizhixin.com

投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com

原標(biāo)題：《周伯文對話斯坦福教授曼寧：人機對話智能新進展需要新「圖靈測試」》

閱讀原文

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#人機對話