中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

周伯文對話斯坦福教授曼寧:人機對話智能新進展需要新“圖靈測試”

2020-06-29 15:46
來源:澎湃新聞·澎湃號·湃客
字號

原創(chuàng) Synced 機器之心

機器之心報道

機器之心編輯部

6 月 22 日,在 2020 智源大會上,有一場大佬對大佬的精彩會談。

過去一年里,人工智能進展最大的方向在自然語言處理(NLP),BERT、GPT-2 等預(yù)訓(xùn)練模型引領(lǐng)了很多方向的新時代,又催生出了大量商業(yè)應(yīng)用機會。面對技術(shù)的進步,AI 領(lǐng)域的頂級學(xué)者和從業(yè)高管是如何看待未來前景的?近日,2020 智源大會在線上召開,在為期四天的會議中,5 位圖靈獎得主、上百位業(yè)內(nèi)專家在 19 個專題論壇云上共同暢想了人工智能的下一個十年。

在智源大會上,京東集團技術(shù)委員會主席、京東智聯(lián)云總裁、京東人工智能研究院院長、IEEE Fellow 周伯文與斯坦福大學(xué)教授、人工智能實驗室負(fù)責(zé)人克里斯托弗 · 曼寧(Christopher Manning)展開了一次精彩的交流。他們討論了自然語言處理領(lǐng)域近期的進展,預(yù)訓(xùn)練模型興起之后的未來發(fā)展方向,甚至還為人工智能的標(biāo)桿評測基準(zhǔn)——圖靈測試找到了一個「替代方案」。

在交流過程中,兩人也提及了京東最近被人工智能頂會 ACL-2020 接收的研究,以及曼寧剛剛發(fā)表的工作,有關(guān)預(yù)訓(xùn)練模型學(xué)習(xí)到的語言結(jié)構(gòu)。

在過去這一年中,我們見證了許多 NLP 領(lǐng)域的技術(shù)成果和場景落地。對此,人工智能著名學(xué)者克里斯托弗 · 曼寧和京東集團技術(shù)「掌門人」周伯文是如何看待的?讓我們一探究竟。

語言理解 & 人機對話領(lǐng)域過去一年的進展

周伯文與曼寧在對話伊始回顧了在 2019 年智源大會上尖峰對話中達成的共識:任務(wù)導(dǎo)向的多輪對話是 NLP 下一個十年重點的研究和應(yīng)用方向。周伯文還創(chuàng)造了一個新詞「任務(wù)導(dǎo)向型對話智能」(Task-oriented Conversational Intelligence),一方面,任務(wù)導(dǎo)向型對話智能可以反向推動許多基礎(chǔ)技術(shù)能力的進步,另一方面,它的發(fā)展也將對經(jīng)濟方面產(chǎn)生巨大影響,帶來人機交互技術(shù)驅(qū)動的萬億級市場。

在語言理解 & 人機對話領(lǐng)域過去一年的進展層面上,周伯文和曼寧不約而同提到了「最令人印象深刻的就是人們見證了超大規(guī)模預(yù)訓(xùn)練語言模型的出現(xiàn),它們可以生成有組織的語言文字表達,」

曼寧表示:「其中的代表就是 GPT-2 和 GPT-3,也包含 BERT、RoBERTA 和 ALBERT、ERNIE 等等不少 BERT 變種。它們使得自然語言理解與生成有了非常大的發(fā)展。我們也看到傳統(tǒng) AI 領(lǐng)域有了很大轉(zhuǎn)變,很多任務(wù)目前都傾向于被大型模型來解決?!?/p>

人工智能發(fā)展的 40 多年來,我們一直在努力試圖讓 AI 可以回答科學(xué)問題。我們過去嘗試使用的思路是研究知識的表達方法,阿蘭圖靈實驗室的 Aristo Project 試圖讓 AI 理解科學(xué)道理,進而深度理解世界,這一思路在最初的十年推動了知識的表達與推理。

在 2020 年,我們通過超大尺寸模型實現(xiàn)了巨大的進步?;?RoBERTa 預(yù)訓(xùn)練模型,我們可以實現(xiàn) 95% 的科學(xué)問題回答準(zhǔn)確率,這看起來是目前解決知識問題的最好方法了。

這些進步為新一輪商業(yè)應(yīng)用打開了道路?!肝磥淼姆较螂m然還無法確定,但我們可以看到基于預(yù)訓(xùn)練語言模型,為搜索引擎公司等科技企業(yè)帶來了很多新商業(yè)機會,」曼寧表示?!杆麄兛梢詫崿F(xiàn)近十年來最大的單個技術(shù)進步,構(gòu)建更好的機器翻譯系統(tǒng),對話 AI,人工智能客服系統(tǒng)等等?,F(xiàn)在,我們正在經(jīng)歷 NLP 領(lǐng)域激動人心的時刻?!?/p>

NLP 領(lǐng)域最近發(fā)生了從特定任務(wù)模型向多任務(wù),大規(guī)模預(yù)訓(xùn)練模型方向轉(zhuǎn)變的重要變化。一方面,工業(yè)界樂于看到 BERT 這樣模型在下游應(yīng)用上的前景。但對于學(xué)界研究者來說,這種發(fā)展大大提高了新研究的門檻??纯?GPT-2 到 GPT-3,它的參數(shù)從 15 億增加到了 1750 億。但如果仔細觀察的話,你會發(fā)現(xiàn)模型對知識的獲取和推理性能的提高,可沒有參數(shù)增加的數(shù)量那么多。

針對這一問題,周伯文指出「在查看 GPT-2、GPT-3 相關(guān)論文后,有一件事情引起了我的注意,那就是 - 當(dāng)我們從零樣本學(xué)習(xí) (zero-shot) 到單樣本 (one-shot) 學(xué)習(xí)時,我認(rèn)為 GPT-3 改進了很多。這有效證明了,從小型模型轉(zhuǎn)換為大型模型時,預(yù)訓(xùn)練等于更多的信息。」

與此同時,周伯文發(fā)現(xiàn),從單樣本 (one-shot) 學(xué)習(xí)過渡到少樣本 (few-shot) 學(xué)習(xí)時,GPT-3 或 GPT-2 的改進非常非常有限。周伯文指出:「我認(rèn)為這從另一方面證明,這些更大規(guī)模的模型可能并沒有學(xué)習(xí)到足夠多的信息?!?/p>

由此觀之,知識的獲取和表征可能仍是 NLP 的正確方向。

曼寧認(rèn)為,目前的大規(guī)模預(yù)訓(xùn)練模型可能存在一些「根本性」的錯誤——這些模型非常低效率。從現(xiàn)實世界人們的對話中學(xué)習(xí)知識的表征,總不是一個好方法??赡?5 年后人們往回看就會嘲笑現(xiàn)在的工作:「看看這些人吧,只想著把模型做得越來越大就妄想能夠?qū)崿F(xiàn)人工智能了?!?/p>

對于研究者來說,我們必須尋找更加有趣的,讓模型可以思考、能夠更高效提取知識的方法。某種程度上,人們應(yīng)該需要找到更好的知識編碼機制,這有關(guān)知識空間,語義連接的更好表達方式。這可能和傳統(tǒng) NLP 的知識圖譜和知識表征有關(guān)。所以讓模型記憶和推斷真實世界的情況,看起來從基礎(chǔ)上就不是一個正確的,高效的方法。

「人類不是通過這種方法學(xué)習(xí)知識的。人類存儲的知識很少,但可以理解大量知識。」曼寧說道。

GPT-3 通過高達 1750 億參數(shù)實現(xiàn)了其他模型無法匹敵的文本生成效果。

作為一個在該領(lǐng)域中務(wù)實的研究人員,周伯文非常關(guān)注最近預(yù)訓(xùn)練的大規(guī)模語言模型以及對語言任務(wù)進行微調(diào)的功能。在一個月前放榜的自然語言處理頂會 ACL 2020 上,周伯文等人有兩篇論文被接收。

「在論文《Orthogonal Relation Transforms with Graph Context Modeling for Knowledge Graph Embedding》中,我們得出的結(jié)論是通過預(yù)訓(xùn)練模型,我們可以生成非常自然的商品介紹,內(nèi)容來自預(yù)訓(xùn)練模型,還有圖片、知識圖譜和用戶的評價,」周伯文表示。

另一個例子是在論文《Self-Attention Guided Copy Mechanism for Abstractive Summarization》中,自注意力機制(self-attention)可以幫助我們在對話任務(wù)和文本摘要任務(wù)上,生成了更多更自然的語句。

據(jù)了解,京東智聯(lián)云在跨模態(tài)內(nèi)容生成上已取得諸多成果,并正式應(yīng)用到京東的業(yè)務(wù)流程中。目前京東智聯(lián)云打造的智能寫作產(chǎn)品,是基于商品圖譜和語言模型構(gòu)建的營銷內(nèi)容智能生成服務(wù),在 2020 年京東 618 期間,已覆蓋京東零售過半數(shù)的商品品類,創(chuàng)作出的導(dǎo)購素材,曝光點擊率相較于人工撰寫的內(nèi)容高出 40%,讓用戶在大促高峰期間也享受到優(yōu)質(zhì)服務(wù)。

這樣一些接近實用化的方向已經(jīng)受到了 NLP 新范式的幫助。毫無疑問,使用預(yù)訓(xùn)練的模型現(xiàn)在可以生成很自然的文本以及對話。但目前的預(yù)訓(xùn)練模型還稱不上完美,曼寧指出,我們還沒法控制這些模型生成的內(nèi)容。

超越圖靈測試的 AI 新基準(zhǔn)

若想實現(xiàn)更好的人工智能,我們必須擁有完美的評測基準(zhǔn)(Benchmark),幾十年以來我們一直將圖靈測試作為「真正人工智能」的測試標(biāo)準(zhǔn)。但圖靈測試是以 AI 模仿人類,試圖「欺騙」測試者進行無特定內(nèi)容對話的形式來進行的。對于研究者來說,這個過程一直存在難以量化的問題。

在 NLP 技術(shù)發(fā)展多年后的今天,「我們會不會出現(xiàn)可以代替圖靈測試的新基準(zhǔn)呢?」周伯文在對話中提出了這個問題,「過去的幾十年中,圖靈測試一直是基準(zhǔn),但是在日常研究中,它讓我們的研究目標(biāo)變得明確,對結(jié)果推動又沒有太多直接的幫助?!?/p>

「這個問題很有趣,也很難回答,」曼寧表示?!肝彝膺@個看法——圖靈測試不是非常清楚的基準(zhǔn)。某種程度上我們需要找一個另外的方法,標(biāo)量真正的理解、真正的持續(xù)對話。但我一時沒法給出完美的答案?!?/p>

不過周伯文有一個「稍顯瘋狂」的主意,有關(guān)最近正火的直播帶貨:熱門主播幾個小時可以帶幾千萬元的貨。這種互動形式看起來非常吸引人,究其根本,它是一個實時的、富有交互性的方式。在這里播主和觀眾用彈幕和語音實時交流,這似乎為對話型 AI 提出了更多的要求。

原本的圖靈測試,不會預(yù)先指出被測試者的身份,通過評判相似性去界定智能化水平;那么,我們是不是可以直接公開使用兩個對話型 AI 做直播帶貨,通過統(tǒng)計以每小時能賣出多少商品的可量化指標(biāo)來對比哪個 AI 的對話更吸引人,從而評估對話型 AI 的智能化水平?

這樣的話,所有評價指標(biāo)都可以量化,形式也非常接近于真實世界。

「這是一個非常有趣的想法,可以帶來非常清楚的評價指標(biāo),」曼寧表示?!钢辈τ谖襾碚f是一個很新鮮的概念,某種程度上來說,這是一個非常直接的評價方式。我不清楚是否完美,但它很有創(chuàng)意:一個人類銷售想要成功,并不取決于對潛在消費者傳遞信息的完美平衡,有時還需要提出超出實際一點點的主張,更加強烈地表達自己的觀點?!?/p>

周伯文表示,在未來幾個月里,京東會對這個方向進行一些嘗試和研究。

學(xué)術(shù)界如何在預(yù)訓(xùn)練時代引領(lǐng)前瞻性研究

今天的人工智能研究正憑借算力的增長而快速發(fā)展,隨著模型體量的增加,學(xué)界研究者面臨的挑戰(zhàn)越來越大。對于研究者們來說,即使希望方法足夠創(chuàng)新,也會在大會上宣講論文時受到這樣的挑戰(zhàn):「你使用的基準(zhǔn)是最新的嗎?」這意味著你不得不直面大量數(shù)據(jù)。

周伯文表示:「近來,我常被問到一個問題,在如今的云計算 + AI 時代,研究人員和學(xué)者如何跟上?」

據(jù)了解,2019 年底,京東整合云計算、人工智能、物聯(lián)網(wǎng)業(yè)務(wù)資源,形成京東云與 AI 事業(yè)部,并于 3 月 5 日面向技術(shù)服務(wù)領(lǐng)域推出全新的「京東智聯(lián)云」品牌。在剛剛過去的京東 618,京東智聯(lián)云提供了全面、穩(wěn)定、安全、可信賴的技術(shù)保障,成為京東 618 的技術(shù)基石,并秉持著「成為最值得信賴的智能技術(shù)提供者」的愿景,對外輸出更多、更好、更融合、更場景化的技術(shù)與服務(wù)。

目前云服務(wù)在商業(yè)公司中的布局已日趨成熟。那么在斯坦福大學(xué),教授們是怎樣平衡增量創(chuàng)新與理論創(chuàng)新的?研究者們是如何使用算力的?

「近年來我們的工作方式有了很大變化。在 20 年前,大學(xué)里才有最大的超級計算機、最快的網(wǎng)絡(luò)。但在最近這些年里,情況有了翻天覆地的變化——現(xiàn)在算力都在商業(yè)公司那里了,」曼寧說道。

如何解決算力不足的問題,每所大學(xué)都有不少思路,最直接的方式就是購買數(shù)量有限的,當(dāng)前最頂配的 GPU,讓很多博士生共用以滿足 80% 時間的需求?!肝蚁脒@是很多大學(xué)都在使用的方法,如果你的實驗室里有 20 名博士生,這要比每人配置一臺機器節(jié)省三倍成本,」曼寧表示?!脯F(xiàn)在我們構(gòu)建起了小型集群,斯坦福 NLP 實驗室有 15 名研究者,我們有大約 100 塊 GPU。你看,這不是一個很大的數(shù)字?!?/p>

另一個思路就是和京東智聯(lián)云這樣的科技公司合作,在一些需要更多計算的研究中,斯坦福也在購買云端算力。

每年冬天,曼寧都會親自為斯坦福 NLP 大課 CS224N 授課。這門課可以吸引 500 名學(xué)生,他們的作業(yè)都需要使用 CPU、GPU 來訓(xùn)練模型,而所有學(xué)生在課程期間的算力需求是大學(xué)負(fù)擔(dān)不起的。因此,斯坦福接受業(yè)界的捐贈。

斯坦福的自然語言處理課程 CS224n 與計算機視覺課程 CS231n 齊名,是 AI 領(lǐng)域最具影響力的公開課程之一。

最后,研究方向也是個問題。「讓模型越來越大可能在最近五年可以實現(xiàn)很大的進展,但在下個十年就不一定了,」曼寧說道?!肝覀儸F(xiàn)在可以構(gòu)建出更大的模型,然后發(fā)出論文。但這個對于基礎(chǔ)方向的研究沒有什么幫助。未來 5-7 年里可能會出現(xiàn)一個窗口,最聰明的研究者可以用普通電腦和 GPU 構(gòu)建出 SOTA 模型,打敗大公司的巨大模型?!?/p>

「但未來也有可能不是這樣,看看其他行業(yè),如果你是個機械工程的 PhD,你肯定沒法上來就蓋世界最高的摩天大樓,如果你是個航空工程學(xué)生,你肯定不會試圖造一架比波音還好的飛機。你需要做的是尋找新的想法?!?/p>

研究學(xué)者需要更加注重于尋找具有開創(chuàng)性的新想法,并提出原型。舉個例子:機器學(xué)習(xí)領(lǐng)域里的 Dropout,其實是在很小的數(shù)據(jù)集上首次實踐的。

構(gòu)建可信賴的 AI:可解釋性和真實世界的魯棒性

最近一段時間,周伯文曾在多個不同場合表達了對于可信賴的 AI(Trustworthy AI)的看法,并指出可信賴的 AI 將是智能經(jīng)濟未來 10 年的新原點。

目前有關(guān)可信賴的 AI 已經(jīng)達成 6 個共識,包含公平、魯棒性(技術(shù)的可用性)、價值對齊(技術(shù)提供者、使用者和產(chǎn)品應(yīng)用方都認(rèn)為產(chǎn)品帶來價值)、可復(fù)制、可解釋以及負(fù)責(zé)任。構(gòu)建可信賴的 AI 一面是對技術(shù)的巨大挑戰(zhàn),一面是人文精神,無論是京東智能情感客服傳遞溫暖、亦或京東物流設(shè)施傳遞信賴,都是對人類的社會責(zé)任與價值體現(xiàn)。

曼寧認(rèn)為,人工智能學(xué)界目前在可解釋性方面已經(jīng)取得了一些進展。一方面是像 transformer 這樣的預(yù)訓(xùn)練模型,注意力機制帶來的好處——這些模型具有相當(dāng)高的可解釋性。

「我的一些學(xué)生發(fā)表過論文試圖解讀 BERT 的運作機制?,F(xiàn)在,我們已能夠?qū)@些模型進行大量解碼,并看到這些模型不僅是巨大的聯(lián)想學(xué)習(xí)機器,而且它們實際上是在學(xué)習(xí)人類語言的結(jié)構(gòu),其解句子的語法結(jié)構(gòu),了解哪些詞是指同一實體,」曼寧說道。

因此,我們已經(jīng)能夠獲得模型內(nèi)部的可解釋性,這意味著模型可以對其整體行為做出某種決定的原因做出一些解釋。當(dāng)然,這里還有很多工作要做,斯坦福研究者們正進行的工作希望就驅(qū)動模型決策的特征進行解釋。

曼寧教授在 6 月份還以第一作者的形式發(fā)表了論文《Emergent linguistic structure in artificial neural networks trained by self-supervision》,其中寫到預(yù)訓(xùn)練模型實際上可以學(xué)習(xí)語言結(jié)構(gòu),不需要任何監(jiān)督。這解釋了為什么大規(guī)模的模型是可行的。但是對于下一步如何更好的理解他們是怎么學(xué)習(xí)到的,這個目前還不太清楚,周伯文指出「這部分需要可信賴的 AI 來解決」。

這些發(fā)現(xiàn)非常令人興奮。之前我們總是認(rèn)為想讓 AI 在某些任務(wù)上工作良好,需要是大型有監(jiān)督模型。因此我們總是以大量資金、雇傭很多人進行數(shù)據(jù)標(biāo)注開始。這是過去 20 年來的工作范式,人們也是通過這種形式在某些任務(wù)上讓 NLP 模型達到接近人類水平的。

「如果下一代人工智能機器本質(zhì)上和十年前一樣,而考慮到訓(xùn)練的內(nèi)容大幅增加,我們實際上是倒退了,而不是前進了,」曼寧說道。

「從技術(shù)角度來看,我將專注于嘗試提高 NLP 的魯棒性以及可解釋性。在 NLP 領(lǐng)域中,如果了解 NLP 的結(jié)構(gòu),了解 NLP 的語義,將是人們構(gòu)建可信任 AI 向前邁進的一大步,」周伯文表示?!溉绾晤A(yù)測下一個單詞的過程對于人們來說還是一個黑箱。另一個方向是可擴展性,當(dāng)我們從一個任務(wù)轉(zhuǎn)移到另一個任務(wù)時,模型需要遷移得足夠好。無論如何,可信賴的 AI 非常重要。如果我們可以在這個領(lǐng)域取得更大的進步,AI 市場和 AI 應(yīng)用將變得越來越大、越來越多,并且適應(yīng)性也將大大提高。因此,這將是我們長期關(guān)注的重點。」

2020 智源 - 京東多模態(tài)對話挑戰(zhàn)大賽

在 2019 年,京東舉辦了 JDDC 對話大賽,去年的主題是 Knowledge-enhanced Task-Oriented Dialogue,今年在智源大會上舉辦的對話大賽則主要關(guān)注對話中的多模態(tài)交互,即研究如何更好的理解對話中的多模態(tài)信息,產(chǎn)生 Task-Oriented Conversational response。

本次競賽的數(shù)據(jù)來自于脫敏后的京東真實客服對話日志,共包含約 200 萬輪次的對話,其中用戶問題涉及約圖片約 50 萬張。

周伯文介紹到,為支持參賽隊伍更好的比賽,本次大賽還提供了約 3 萬商品的小型商品知識庫,和 2 萬張圖片的標(biāo)注數(shù)據(jù)。大賽開始三周,到目前為止已有超過 400 人參加比賽。

曼寧對于這場比賽的成功舉辦表示興奮:「這場比賽非?;馃?,人類在這樣的對話中扮演的角色也非常重要。顯然作為人類,對話不是所有——我們還會使用背景知識和其他感覺。我認(rèn)為這次我們將看到自然語言處理中很多 NLP 領(lǐng)域中奠定基礎(chǔ)的新思想,有關(guān) NLP 與對話發(fā)生環(huán)境、領(lǐng)域知識,以及理解和生成?!?p>

這場連接京東大廈和斯坦福校園的對話,給我們帶來了很多啟發(fā)。由于新冠疫情的影響,周伯文與曼寧無法進行面對面的交談,不過兩人已經(jīng)開始期待下一次的見面了。

不知下次見面時,人工智能技術(shù)將會出現(xiàn)哪些大發(fā)展?

本文為機器之心報道,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。

?------------------------------------------------

加入機器之心(全職記者 / 實習(xí)生):hr@jiqizhixin.com

投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com

原標(biāo)題:《周伯文對話斯坦福教授曼寧:人機對話智能新進展需要新「圖靈測試」》

閱讀原文

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司