中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

理解大語言模型——10篇論文的簡(jiǎn)明清單

2023-03-10 11:31
來源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

原創(chuàng) Raschka 集智俱樂部

導(dǎo)語

理解大語言模型的一份最短閱讀清單,應(yīng)該包含哪些論文?近日一位博主梳理了10篇里程碑式的論文。

關(guān)鍵詞:語言模型,機(jī)器學(xué)習(xí)

Sebastian Raschka | 作者

范思雨 | 譯者

鄧一雪 | 編輯

大語言模型(Large language models,LLMs)如今已成為公眾關(guān)注的焦點(diǎn)。在短短五年時(shí)間內(nèi),基于 Transformer結(jié)構(gòu)的大語言模型幾乎徹底改變了自然語言處理領(lǐng)域的研究。此外,這些模型也開始在計(jì)算機(jī)視覺和計(jì)算生物學(xué)等領(lǐng)域產(chǎn)生革命性影響。

考慮到大語言模型的出現(xiàn)對(duì)每個(gè)人的研究產(chǎn)生了如此大的影響,我想為正在入門機(jī)器學(xué)習(xí)的學(xué)界和業(yè)界朋友列出一份閱讀清單。在下文中,我將會(huì)給出一份僅包含學(xué)術(shù)論文的閱讀清單,并按照論文發(fā)表的時(shí)間順序依次介紹。當(dāng)然,還有很多其他有用的資源供各位讀者參考,例如:

? Jay Alammar 解釋 Transformer 模型的文章

http://jalammar.github.io/illustrated-transformer/

? Lilian Weng 更偏技術(shù)性的博客文章

https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/

? Xavier Amatriain 關(guān)于 Transformer 系列模型的科普文章

https://amatriain.net/blog/transformer-models-an-introduction-and-catalog-2d1e9039f376/

? Andrej Karpathy(特斯拉前AI總監(jiān))訓(xùn)練中型GPT的開源代碼庫(nanoGPT)

https://github.com/karpathy/nanoGPT

? 以及由我自己授課的系列講座視頻和書籍章節(jié)

https://sebastianraschka.com/blog/2021/dl-course.html#l19-self-attention-and-transformer-networks

https://github.com/rasbt/machine-learning-book/tree/main/ch16

理解大語言模型的結(jié)構(gòu)和任務(wù)

如果你是剛剛接觸 Transformer 系列模型或者大語言模型,那么我們最好從頭開始介紹。

(1)結(jié)合對(duì)齊和翻譯的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型

論文題目:Neural Machine Translation by Jointly Learning to Align and Translate (2014)

論文作者:Bahdanau, Cho, Bengio

論文地址:https://arxiv.org/abs/1409.0473

如果時(shí)間充足,我建議從這篇論文開始讀起。這篇文章引入了一種注意力機(jī)制(attention mechanism),用于提升遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的長(zhǎng)序列建模能力。這使得 RNN 能夠更準(zhǔn)確地翻譯更長(zhǎng)的句子——這也是后來開發(fā)出原始 Transformer 模型的動(dòng)機(jī)。

(2)注意力機(jī)制

論文題目:Attention Is All You Need (2017)

論文作者:Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, and Polosukhin

論文地址:https://arxiv.org/abs/1706.03762

這篇論文介紹了原始 Transformer 模型的結(jié)構(gòu)。該模型由編碼器和解碼器兩部分組成,這兩個(gè)部分在后續(xù)模型中分離成兩個(gè)獨(dú)立的模塊。此外,該論文還引入了縮放點(diǎn)積注意力機(jī)制(Scaled Dot Product Attention Mechanism)、多頭注意力機(jī)制(Multi-head Attention Blocks)和位置編碼(Positional Input Encoding)等概念,這些概念仍然是現(xiàn)代 Transformer 系列模型的基礎(chǔ)。

(3)BERT: 語言理解的深度雙向 Transformer 預(yù)訓(xùn)練

論文題目:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)

論文作者:Devlin, Chang, Lee, and Toutanova

論文地址:https://arxiv.org/abs/1810.04805

在原始的 Transformer 模型之后,大語言模型研究開始向兩個(gè)方向分化:基于編碼器結(jié)構(gòu)的 Transformer 模型用于預(yù)測(cè)建模任務(wù),例如文本分類;而基于解碼器結(jié)構(gòu)的 Transformer 模型用于生成建模任務(wù),例如翻譯、摘要和其他形式的文本內(nèi)容生成。

上述 BERT 論文引入了掩碼語言建模(Masked-language Modeling)概念,除此以外,下句預(yù)測(cè)(Next-Sentence Prediction)則是一種很重要的基于解碼器結(jié)構(gòu)的預(yù)訓(xùn)練任務(wù)。如果你對(duì)這一研究分支感興趣,我建議你繼續(xù)研究 RoBERTa 模型,它通過取消下句預(yù)測(cè)任務(wù)簡(jiǎn)化了預(yù)訓(xùn)練目標(biāo)。

論文題目:RoBERTa: A Robustly Optimized BERT Pretraining Approach

論文地址:https://arxiv.org/abs/1907.11692

(4)通過生成預(yù)訓(xùn)練改進(jìn)語言理解

論文題目:Improving Language Understanding by Generative Pre-Training (2018)

論文作者:Radford and Narasimhan

論文地址:https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

這篇關(guān)于生成式預(yù)訓(xùn)練模型(Generative Pre-Training,GPT)的文章介紹了基于解碼器的模型結(jié)構(gòu)和下句預(yù)測(cè)的預(yù)訓(xùn)練任務(wù)。BERT 可以被認(rèn)為是雙向 Transformer 模型,因?yàn)槠洳捎昧搜诖a語言建模,GPT 則是單向自回歸模型。GPT 的嵌入也可用于分類任務(wù),GPT 可被稱為現(xiàn)在最具影響力的各類大語言模型的核心,例如 ChatGPT。

如果你對(duì)這個(gè)研究方向感興趣,我建議你繼續(xù)閱讀 GPT-2 和 GPT-3 的相關(guān)論文。這兩篇論文表明大語言模型能夠進(jìn)行零樣本學(xué)習(xí)和少量樣本學(xué)習(xí),并強(qiáng)調(diào)了大型語言模型的涌現(xiàn)能力(Emergent Ability)。GPT-3 也是訓(xùn)練現(xiàn)代大語言模型的基準(zhǔn)模型,例如 ChatGPT。我們將在后續(xù)單獨(dú)介紹之后孕育出 ChatGPT 的模型—— InstructGPT。

GPT-3 論文

論文題目:Language Models are Few-Shot Learners

論文地址:https://arxiv.org/abs/2005.14165

GPT-2 論文

論文題目:Language Models are Unsupervised Multitask Learners

論文地址:https://www.semanticscholar.org/paper/Language-Models-are-Unsupervised-Multitask-Learners-Radford-Wu/9405cc0d6169988371b2755e573cc28650d14dfe

(5)BART:用于自然語言生成、翻譯和理解的降噪序列對(duì)序列預(yù)訓(xùn)練

論文題目:BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (2019)

論文作者:Lewis, Liu, Goyal, Ghazvininejad, Mohamed, Levy, Stoyanov, and Zettlemoyer

論文地址:https://arxiv.org/abs/1910.13461

如前所述,類似BERT這樣基于編碼器結(jié)構(gòu)的大語言模型通常用于預(yù)測(cè)建模任務(wù)。而類似 GPT 這樣基于解碼器結(jié)構(gòu)的大語言模型則更適合文本生成任務(wù)。為了兼顧兩類模型的優(yōu)點(diǎn),這篇 BART 論文結(jié)合了編碼器和解碼器兩個(gè)部分(類似于本清單中提到的第二篇論文)。

規(guī)模法則和模型效率提升

如果你想了解更多有關(guān)提升 Transformer 模型效率的方法,我推薦閱讀2020年的 Efficient Transformers: A Survey 一文,然后再閱讀2023年的 A Survey on Efficient Training of Transformers。此外,以下是我認(rèn)為有趣且值得深入研究的兩篇文章。

(6)Flash Attention:具有 IO 感知功能的快速高效的精確注意力機(jī)制

論文題目:Flash Attention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022)

論文作者:Dao, Fu, Ermon, Rudra, and Ré

論文地址:https://arxiv.org/abs/2205.14135

盡管大多數(shù) Transformer 論文并不考慮用其他機(jī)制替換縮放點(diǎn)積機(jī)制來實(shí)現(xiàn)自注意力(Self-Attention),但 Flash Attention 是我最近看到的最常被引用的新機(jī)制之一。

(7)Cramming:利用單個(gè) GPU 單日訓(xùn)練語言模型

論文題目:Cramming: Training a Language Model on a Single GPU in One Day (2022)

論文作者:Geiping and Goldstein

論文地址:https://arxiv.org/abs/2212.14034

在這篇論文中,研究者在單個(gè)GPU上對(duì)掩碼語言模型/基于編碼器的大語言模型(這里指BERT)進(jìn)行了24小時(shí)的訓(xùn)練。相比之下,2018年的BERT論文使用了16個(gè)TPU進(jìn)行了四天的訓(xùn)練。有趣的是,雖然較小的模型具有更高的吞吐量(throughput),但它們學(xué)習(xí)的效率也更低。因此,更大的模型不一定需要花費(fèi)更多的訓(xùn)練時(shí)間就能達(dá)到特定的預(yù)測(cè)性能閾值。

(8)訓(xùn)練計(jì)算最優(yōu)的大語言模型

論文題目:Training Compute-Optimal Large Language Models (2022)

論文作者:Hoffmann, Borgeaud, Mensch, Buchatskaya, Cai, Rutherford, de Las Casas, Hendricks, Welbl, Clark, Hennigan, Noland, Millican, van den Driessche, Damoc, Guy, Osindero, Simonyan, Elsen, Rae, Vinyals, and Sifre

論文地址:https://arxiv.org/abs/2203.15556

這篇論文介紹了 Chinchilla 模型,它包含 700 億個(gè)參數(shù)。在生成建模任務(wù)中,該模型表現(xiàn)優(yōu)于包含 1750 億個(gè)參數(shù)的 GPT-3 模型。然而,這篇論文的主要論點(diǎn)是現(xiàn)代大語言模型存在“訓(xùn)練不足”的問題。

該論文定義了大語言模型訓(xùn)練的線性縮放律(Linear Scaling Law)。例如,雖然 Chinchilla 的參數(shù)量只有 GPT-3 的一半,但它的表現(xiàn)卻優(yōu)于 GPT-3。因?yàn)樗窃?1.4 萬億個(gè)詞語標(biāo)記(而不僅僅是 3000 億個(gè))上進(jìn)行訓(xùn)練的。換句話說,詞語標(biāo)記的數(shù)量與模型大小一樣重要。

對(duì)齊——引導(dǎo)大語言模型完成訓(xùn)練目標(biāo)

近年來,我們看到許多表現(xiàn)出色的大語言模型,它們可以生成非常貼近真實(shí)的文本內(nèi)容(例如GPT-3和Chinchilla)。就常用的預(yù)訓(xùn)練范式而言,我們似乎已經(jīng)達(dá)到了一個(gè)上限。

為了使語言模型發(fā)揮更大作用,減少錯(cuò)誤信息和有害語言的生成,研究者設(shè)計(jì)了新的訓(xùn)練范式來對(duì)預(yù)訓(xùn)練的基礎(chǔ)模型進(jìn)行微調(diào)。

(9)使用人類反饋進(jìn)行微調(diào)訓(xùn)練語言模型在各種任務(wù)上與用戶意圖保持一致

論文題目:Training Language Models to Follow Instructions with Human Feedback (2022)

論文作者:Ouyang, Wu, Jiang, Almeida, Wainwright, Mishkin, Zhang, Agarwal, Slama, Ray, Schulman, Hilton, Kelton, Miller, Simens, Askell, Welinder, Christiano, Leike, and Lowe

論文地址:https://arxiv.org/abs/2203.02155

在這篇被稱為 InstructGPT 的論文中,研究者使用了一種利用人類反饋進(jìn)行強(qiáng)化學(xué)習(xí)的機(jī)制(Reinforcement Learning with Human Feedback ,RLHF)。他們基于預(yù)訓(xùn)練的 GPT-3 模型,使用監(jiān)督學(xué)習(xí)對(duì)人類生成的提示響應(yīng)對(duì)( Prompt-Response Pairs)對(duì)模型進(jìn)行進(jìn)一步微調(diào)(步驟1)。接下來,他們要求人類對(duì)模型的輸出進(jìn)行排序以訓(xùn)練獎(jiǎng)勵(lì)模型(步驟2)。最后,他們使用獎(jiǎng)勵(lì)模型,通過近端策略優(yōu)化(Proximal Policy Optimization)(步驟3)的強(qiáng)化學(xué)習(xí)方法,來調(diào)整經(jīng)過預(yù)訓(xùn)練和微調(diào)的GPT-3模型。

順便說一句,這篇論文也被稱為闡述 ChatGPT 思想內(nèi)核的論文——根據(jù)最近的說法,ChatGPT是InstructGPT的擴(kuò)展版本,它實(shí)現(xiàn)了在更大的數(shù)據(jù)集上的微調(diào)。

(10)Constitutional AI:AI 反饋達(dá)成無害性

論文題目:Constitutional AI: Harmlessness from AI Feedback (2022)

論文作者:Yuntao, Saurav, Sandipan, Amanda, Jackson, Jones, Chen, Anna, Mirhoseini, McKinnon, Chen, Olsson, Olah, Hernandez, Drain, Ganguli, Li, Tran-Johnson, Perez, Kerr, Mueller, Ladish, Landau, Ndousse, Lukosuite, Lovitt, Sellitto, Elhage, Schiefer, Mercado, DasSarma, Lasenby, Larson, Ringer, Johnston, Kravec, El Showk, Fort, Lanham, Telleen-Lawton, Conerly, Henighan, Hume, Bowman, Hatfield-Dodds, Mann, Amodei, Joseph, McCandlish, Brown, Kaplan

論文地址:https://arxiv.org/abs/2212.08073

在這篇論文中,研究者將對(duì)齊思想(Alignment)又往前推了一步,提出了一種訓(xùn)練機(jī)制,用于創(chuàng)建一個(gè)“無害”的人工智能系統(tǒng)。研究者提出了一種自我訓(xùn)練機(jī)制,這種機(jī)制基于一系列規(guī)則(由人類提供),而不是直接人類監(jiān)督。這篇文章與前文提到的 InstructGPT 一樣采用了強(qiáng)化學(xué)習(xí)方法。

附加閱讀清單:

基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)

盡管 RLHF 可能無法解決大語言模型當(dāng)前面臨的所有問題,但它仍然被認(rèn)為是最佳的選擇,特別是與上一代大語言模型相比。未來,我們會(huì)有很大希望看到更多創(chuàng)造性的方法將 RLHF 應(yīng)用到大語言模型的其他領(lǐng)域。

上面的兩篇論文,InstructGPT 和 Constitutional AI,都使用了 RLHF。毋庸置疑,RLHF 代表了未來的研究趨勢(shì)。如果你想了解 RLHF,本節(jié)提供了額外的參考資料。(從技術(shù)層面講,Constitutional AI 這篇論文使用了 AI 而不是人類反饋,但它使用了類似 RL 的概念。)

(11)深度強(qiáng)化學(xué)習(xí)的異步方法

這篇文章引入了策略梯度算法,以替代作為基于深度學(xué)習(xí)的強(qiáng)化學(xué)習(xí)中的 Q-learning 方法。

論文題目:Asynchronous Methods for Deep Reinforcement Learning (2016)

論文作者:Mnih, Badia, Mirza, Graves, Lillicrap, Harley, Silver, and Kavukcuoglu

論文地址:https://arxiv.org/abs/1602.01783

(12)近端策略優(yōu)化

這篇文章提出了一種改進(jìn)的近端策略強(qiáng)化學(xué)習(xí)過程,該過程比上面的普通策略優(yōu)化算法更具數(shù)據(jù)高效性和可擴(kuò)展性。

論文題目:Proximal Policy Optimization Algorithms (2017)

論文作者:Schulman, Wolski, Dhariwal, Radford, Klimov

論文地址:https://arxiv.org/abs/1707.06347

(13)借助人類反饋學(xué)習(xí)總結(jié)

論文題目:Learning to Summarize from Human Feedback (2022)

論文作者:Stiennon, Ouyang, Wu, Ziegler, Lowe, Voss, Radford, Amodei, Christiano

論文地址:https://arxiv.org/abs/2009.01325

這篇文章介紹了實(shí)現(xiàn) RLHF 的三步過程:

1. 預(yù)訓(xùn)練 GPT-3 模型

2. 對(duì)模型進(jìn)行監(jiān)督微調(diào)

3. 以有監(jiān)督方法訓(xùn)練獎(jiǎng)勵(lì)模型,然后使用該獎(jiǎng)勵(lì)模型疊加近端策略優(yōu)化方法以訓(xùn)練出微調(diào)模型。

這篇文章還表明,與常規(guī)的監(jiān)督學(xué)習(xí)相比,使用近端策略優(yōu)化的強(qiáng)化學(xué)習(xí)可以訓(xùn)練出更好的模型。

需要注意的是,前文中討論的 InstructGPT 論文(9)對(duì) RLHF 使用了類似的三步過程,但它不是總結(jié)文本,而是側(cè)重于根據(jù)人工指令生成文本。此外,它還使用打標(biāo)簽的方法對(duì)模型輸出進(jìn)行從好到壞的排序(而不僅僅是人類和人工智能生成的文本之間的比較)。

結(jié)論以及延伸閱讀

在本文中,我嘗試提供一份簡(jiǎn)潔、有用的閱讀清單,于是挑選了10篇核心文章(附加三篇RLHF的文章)來幫助各位了解大語言模型的設(shè)計(jì)、結(jié)構(gòu)演變以及模型限制。

想要了解更多內(nèi)容,我建議繼續(xù)閱讀上述論文的參考文獻(xiàn)。或者,參考以下資源作為延伸閱讀:

GPT 的開源替代品

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model (2022), https://arxiv.org/abs/2211.05100

OPT: Open Pre-trained Transformer Language Models (2022), https://arxiv.org/abs/2205.01068

ChatGPT 的替代品

LaMDA: Language Models for Dialog Applications (2022), https://arxiv.org/abs/2201.08239

(Sparrow) Improving Alignment of Dialogue Agents via Targeted Human Judgements (2022), https://arxiv.org/abs/2209.14375

BlenderBot 3: A Deployed Conversational Agent that Continually Learns to Responsibly Rngage, https://arxiv.org/abs/2208.03188

大語言模型在計(jì)算生物學(xué)中的應(yīng)用

ProtTrans: 通過自監(jiān)督學(xué)習(xí)和高性能計(jì)算破解生命的代碼語言

ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Deep Learning and High Performance Computing (2021), https://arxiv.org/abs/2007.06225

使用 AlphaFold 進(jìn)行高精度蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

Highly Accurate Protein Structure Prediction with AlphaFold (2021), https://www.nature.com/articles/s41586-021-03819-2

利用大語言模型生成跨多個(gè)家族和功能的蛋白質(zhì)序列

Large Language Models Generate Functional Protein Sequences Across Diverse Families (2023), https://www.nature.com/articles/s41587-022-01618-2

原文鏈接:

https://sebastianraschka.com/blog/2023/llm-reading-list.html

原標(biāo)題:《理解大語言模型——10篇論文的簡(jiǎn)明清單》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司