下載客戶端

登錄

曾被ICLR拒稿，字節(jié)跳動今斬獲最佳論文，ACL2021各大獎項揭曉

2021-07-07 12:01

來源：澎湃新聞·澎湃號·湃客

聽全文

機器之心報道

機器之心編輯部

被頂會拒稿請不要灰心，說不定你的論文會成為另一個頂會的最佳。

昨日，NLP 領域國際頂會 ACL 2021 公布獲獎論文信息：來自字節(jié)跳動火山翻譯的一篇神經機器翻譯工作被評為最佳論文。此外，最佳主題論文、杰出論文也揭曉。

ACL，是計算語言學和自然語言處理領域的頂級國際會議，由國際計算語言學協(xié)會組織，每年舉辦一次。

一直以來，ACL 在 NLP 領域的學術影響力都位列第一，它也是 CCF-A 類推薦會議。

今年的 ACL 大會已是第 59 屆，計劃于 8 月 1-6 日在泰國曼谷舉行。

不久之前，ACL 2021 官方發(fā)布了關于本屆大會接收結果：本屆 ACL 共計收到 3350 篇論文投稿，最終有 21.3% 的論文錄用到主會（Main Conference），并額外接收了 14.9% 的論文到 Findings 子刊，綜合錄用率為 36.2%。我們可以從被接收的論文作者與機構中發(fā)現(xiàn)，有大量的國內論文被接收。

除了接收論文之外，今年的 ACL 的組織成員里面也有大量的華人面孔，特別是今年的年會主席是中科院自動化研究所的宗成慶老師，程序主席包括華盛頓大學的 Fei Xia 教授、香港理工大學 Wenjie Li 教授。

昨天，大家最為關注的 ACL 2021 獲獎論文公布，令人驚喜的是這些獲獎論文里面也包含多篇國內研究成果：如來自字節(jié)跳動火山翻譯的機器翻譯研究獲得最佳論文，來自港中文、騰訊 AI Lab 合作的論文也入選杰出論文。

最佳論文：字節(jié)跳動火山翻譯

ACL 2021 的最佳論文來自字節(jié)跳動火山翻譯團隊，該研究提出了一種新的詞表學習方案 VOLT，在多種翻譯任務上取得了優(yōu)秀的結果。

標題：Vocabulary Learning via Optimal Transport for Neural Machine Translation

作者：許晶晶、周浩、甘純、鄭在翔、李磊

論文地址：https://arxiv.org/pdf/2012.15671.pdf

代碼地址：https://github.com/Jingjing-NLP/VOLT

對于從業(yè)者來說，大家無時無刻不在使用詞表對語言進行向量化表示。在深度學習時代，詞表構建基本上是所有自然語言處理任務的第一步工作。盡管現(xiàn)今也有了一些比較通用的詞表處理方法，但是仍然沒有辦法回答最基礎的問題：什么是最優(yōu)詞表，如何生成最優(yōu)詞表？

為了回答該問題，本論文嘗試提出一種無需訓練的詞表評價指標和針對該評價指標的詞表學習方案 VOLT。該方案在常用的英德翻譯、英法翻譯、低資源翻譯、多語言翻譯上都取得了相比傳統(tǒng)詞表解決方案更好的結果。

表 1：使用 VOLT 與廣泛使用的 BPE 詞表進行詞匯搜索的結果比較。VOLT 得到了更高的 BLEU 分數(shù)，同時大大減少了詞匯量。此處采用的是 X-En 設置下的詞匯量。

使用 VOLT 生成詞匯，簡單的基線方法就能夠實現(xiàn) SOTA 結果。該研究在 En-De 數(shù)據(jù)集上測試了 VOLT 和其他幾種方法的性能，結果如表 5 所示。與其他方法相比，VOLT 以更少的詞匯量實現(xiàn)了幾乎最佳的性能。這些結果表明，簡單的基線方法使用定義明確的詞表就能夠獲得良好的結果。

表 5：VOLT 和強基準之間的比較結果。VOLT 在詞匯量較少的情況下取得了幾乎最好的表現(xiàn)。

值得一提的是，該研究修改前的版本曾投至另一個機器學習頂會 ICLR 2021。在 Openreview 網(wǎng)站上現(xiàn)在還能看到該論文及匿名評審的結果。當時四名評審給出的意見是 3、3、4、4——未達到接收標準，作者做了rebuttal之后撤稿投了ACL。

論文作者之一的周浩在社交網(wǎng)絡中表示：「關于從 ICLR 到 ACL 的轉投當時情況是這樣的，我們在投 ICLR 的時候花了太多時間在實驗上，在 writing 上花的時間很不夠，整個 paper 顯地平鋪直敘，Intuition 沒有說出來，且有部分重要的實驗沒有補充。結果大家也看到了，我覺得這是一個重要的 lesson，也歡迎大家對比我們兩個版本的論文。」

論文一作許晶晶則總結了經驗與教訓：「我學到的最重要教訓是一定要把東西寫清楚。雖然寫作不是最重要的，idea 才是，但是寫清楚是讓評審評價工作的前提。其實 ICLR 的評審和 ACL 的評委都對我們的 Idea 做了肯定，新穎性和有趣性都是被承認的，我們給出的基于最大邊際效應的解釋，和把詞表學習建模成一個最優(yōu)運輸問題都是全新的一套想法。ICLR 對 idea 沒有太多問題，問題主要是在寫作上，后來我們把寫作改進之后，能拿到高分雖然意料之外，倒也在情理之中。有一說一，我們 ICLR 那篇工作確實寫的不好。評審的反饋主要在以下幾個方面：實驗做的不夠充分，方法介紹的不夠清楚，動機也缺乏直接證據(jù)。后來的這幾點，我們在 ACL 版本都做了大量的改進。我們補充了很多后續(xù)實驗，寫作也推倒重來，一遍遍推敲邏輯是否合理，實驗是不是嚴謹和充分等等，整個過程是很痛苦的。所以后來我們得到 ACL 的評審認可的時候非常激動，畢竟投入了很多心血的工作終于得到了回報?！?/p>

這篇論文在一番改進之后獲得了另一個頂會的最佳獎項，過程可謂大起大落。

最佳主題論文：CMU

今年的最佳主題論文（Best theme paper）研究來自卡耐基梅隆大學、巴伊蘭大學、加勞德特大學與艾倫人工智能研究所等機構。第一作者殷綺妤（Kayo Yin）本科畢業(yè)于巴黎綜合理工學院，目前是卡耐基梅隆大學的在讀研究生。

標題：Including Signed Languages in Natural Language Processing

作者：Kayo Yin、Amit Moryossef、Julie Hochgesang、Yoav Goldberg、Malihe Alikhani

機構：CMU、巴伊蘭大學、加勞德特大學、艾倫人工智能研究所、匹茲堡大學

鏈接：https://arxiv.org/abs/2105.05222

論文摘要：手語是許多聾啞人和重聽人交流的主要手段。由于手語表現(xiàn)了自然語言的所有基本語言特性，該研究認為自然語言處理的工具和理論對其建模至關重要。然而，現(xiàn)有的手語處理 (SLP) 研究很少嘗試探索和利用手語的語言結構組織。該研究呼吁 NLP 社區(qū)將手語作為具有高度社會和科學影響的研究領域。該研究首先討論了手語在建模過程中要考慮的語言屬性；然后回顧了當前 SLP 模型的局限性，并確定了將 NLP 擴展到手語的開放挑戰(zhàn)；最后，該研究建議以下幾點 (1) 采用一種有效的 tokenization 方法 (2) 語言信息模型的發(fā)展 (3) 真實世界的手語數(shù)據(jù)的收集(4) 將當?shù)厥终Z社區(qū)納入到積極而主導話語權研究方向中。

六篇杰出論文

除最佳論文以外，今年的 ACL 還評出了六篇杰出論文（Outstanding papers），其中包括港中文、騰訊 AI Lab、斯坦福大學（李飛飛、曼寧等人團隊）的研究。

論文 1：All That’s ‘Human’ Is Not Gold: Evaluating Human Evaluation of Generated Text

作者：Elizabeth Clark、Tal August、Sofia Serrano、Nikita Haduong、Suchin Gururangan、Noah A. Smith

機構：華盛頓大學、艾倫人工智能研究所

論文地址：https://arxiv.org/abs/2107.00061

論文摘要：人類評估通常被認為是自然語言生成的黃金標準，但隨著模型流暢程度的提升，評估者能夠檢測、判斷出機器生成的文本嗎？在這項研究中，研究者評估了非專家在故事、新聞、食譜三個領域中區(qū)分人工與機器（GPT-2、GPT-3）撰寫文本的能力。他們發(fā)現(xiàn)，未經過訓練的評估者區(qū)分 GPT-3 與人類生成文本的概率是隨機的。研究者探索了三種快速訓練評估者的方法以更好地識別 GPT-3 生成的文本(詳細說明、附加注釋的例子和配對例子) ，并發(fā)現(xiàn)其準確率提高了 55%，但在上面提到的三個領域仍然沒有顯著改善?？紤]到文本域的結果不一致，以及評估者給出的判斷常常相互矛盾，研究者檢驗了未經訓練的人類評估者在自然語言生成評估中所起的作用，并為自然語言生成的研究者們提供了改進人類評估文本生成結果的最新模型建議。

論文 2：Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

作者：Armen Aghajanyan、Sonal Gupta、Luke Zettlemoyer

機構：Facebook

論文地址：https://arxiv.org/abs/2012.13255

論文摘要：盡管可以通過對預訓練語言模型進行微調，來為廣泛的語言理解任務產生 SOTA 結果，但該過程的具體原理還沒有得到很好的解釋，尤其是在低數(shù)據(jù)范圍內。為什么使用相對普通的梯度下降算法（例如不包含強大的正則化）就能在只有數(shù)百或數(shù)千個標記樣本的數(shù)據(jù)集上調整具有數(shù)億個參數(shù)的模型？在該論文中，研究者認為從內在維度的角度分析微調，能夠得到解釋上述現(xiàn)象的實驗和理論依據(jù)。該研究通過實驗表明，常見的預訓練模型具有非常低的內在維度；換句話說，存在與完全參數(shù)空間一樣有效的微調低維重參數(shù)化。例如，通過僅優(yōu)化隨機投射回完全空間的 200 個可訓練參數(shù)，研究者可以調整 RoBERTa 模型以在 MRPC 上實現(xiàn) 90% 的完全參數(shù)性能水平。此外，該研究通過實驗表明，預訓練隱式地最小化了內在維度，也許令人驚訝的是，經過一定數(shù)量的預訓練更新，較大的模型往往具有較低的內在維度，這在一定程度上解釋了它們的極端有效性。最后，研究者將內在維度與低維任務表征和基于壓縮的泛化邊界聯(lián)系起來，以提供基于內在維度的，與完全參數(shù)數(shù)量無關的泛化邊界。

論文 3：Mind Your Outliers! Investigating the Negative Impact of Outliers on Active Learning for Visual Question Answering

作者：Siddharth Karamcheti、Ranjay Krishna、Li Fei-Fei、Christopher Manning

機構：斯坦福大學

目前，這篇論文的 PDF 和網(wǎng)站還未公開，之后將持續(xù)關注。

論文 4：Neural Machine Translation with Monolingual Translation Memory

作者：Deng Cai、Yan Wang、Huayang Li、Wai Lam、Lemao Liu

機構：香港中文大學、騰訊 AI Lab

論文地址：https://arxiv.org/pdf/2105.11269.pdf

論文摘要：先前的研究證明翻譯記憶 (TM) 可以提高神經機器翻譯 (NMT) 的性能。與使用雙語語料庫作為 TM 并采用源端相似性搜索進行記憶檢索的現(xiàn)有工作相比，該研究提出了一種新框架，該框架使用單語記憶并以跨語言方式執(zhí)行可學習的記憶檢索，該框架具有獨特的優(yōu)勢。首先，跨語言記憶檢索器允許大量的單語數(shù)據(jù)成為 TM。第二，記憶檢索器和 NMT 模型可以為最終的翻譯目標進行聯(lián)合優(yōu)化。實驗表明，該方法得到了顯著的改進。值得注意的是，它甚至優(yōu)于使用雙語 TM 的「TM-augmented NMT」基線方法。由于能夠利用單語數(shù)據(jù)，該研究還證明了所提模型在低資源和領域適應場景中的有效性。

論文 5：Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers

作者：Benjamin Marie、Atsushi Fujita、Raphael Rubino

機構：NICT（日本）

論文地址：https://arxiv.org/pdf/2106.15195.pdf

論文摘要：本文提出了首個大規(guī)模機器翻譯 (MT) 元評估（metaevaluation）。該研究對 2010 年至 2020 年發(fā)表的 769 篇研究論文進行了機器翻譯評估。研究表明，MT 自動評估的實踐在過去的十年中發(fā)生了巨大的變化，并遵循相關的趨勢。越來越多的 MT 評估僅依靠 BLEU 得分之間的差異得出結論，而不進行任何統(tǒng)計意義測試或人為評價，而至少有 108 個指標聲稱優(yōu)于 BLEU。在最近的論文中，MT 評估傾向于復制和比較以前工作中的自動度量得分，以聲稱一種方法或算法的優(yōu)越性，而沒有確認使用過完全相同的訓練、驗證和測試數(shù)據(jù)，度量得分不具有可比性。此外，報告標準化度量得分的工具還遠未被 MT 社區(qū)廣泛采用。在展示了這些缺陷累積導致可疑的評估后，該研究提出了一個準則，以鼓勵更好的自動 MT 評估以及一個簡單的元評估得分方法來評估其可信度。

論文 6：UnNatural Language Inference

作者：Koustuv Sinha、Prasanna Parthasarathi、Joelle Pineau、Adina Williams

機構：麥吉爾大學、MILA、FAIR

論文地址：https://arxiv.org/pdf/2101.00010.pdf

GitHub 地址：https://github.com/facebookresearch/unlu

論文摘要：近期基于 Transformer 的自然語言理解研究表明，這些大規(guī)模預訓練 SOTA 模型似乎能夠在某種程度上理解類人的語法。在這篇論文中，研究者提供了一些新的證據(jù)，從更復雜的維度闡釋了這一問題。他們發(fā)現(xiàn)當前的自然語言推理 SOTA 模型能夠給重新排列的示例打上與此前相同的標簽，也就是說，它們在很大程度上對隨機的詞序排列具有不變性。為了度量這個問題的嚴重性，研究者提出了一套度量方法，并研究了特定排列中的哪些特質使得模型具備詞序不變性。例如在 MNLI 數(shù)據(jù)集中，研究者發(fā)現(xiàn)幾乎所有 (98.7%) 的示例都至少包含一個引發(fā)黃金標簽的序列。模型有時候甚至能為它們最初未能正確預測的序列分配黃金標簽。在進行了全面的實驗評估以后，結果表明這個問題存在于 Transformer 和基于 pre-Transformer 架構的編碼器，在跨多種語言時也會出現(xiàn)。

ACL 獲獎論文完整列表：https://2021.aclweb.org/program/accept/

參考內容：

https://www.zhihu.com/question/470224094

? THE END

轉載請聯(lián)系本公眾號獲得授權

投稿或尋求報道：content@jiqizhixin.com

原標題：《曾被ICLR拒稿，字節(jié)跳動今斬獲最佳論文，ACL 2021各大獎項揭曉》

閱讀原文

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報