- +1
復(fù)旦教授黃萱菁:善用AI和不用AI的人在工作效率上有巨大差距
“當(dāng)模型的參數(shù)規(guī)模還不太大的時(shí)候,你看不到它的強(qiáng)大,當(dāng)達(dá)到某一個(gè)臨界值時(shí),這個(gè)模型就會(huì)非常強(qiáng)大,目前我們認(rèn)為這個(gè)參數(shù)規(guī)模的臨界值可能是650億?!?/u>
“什么數(shù)據(jù)是最好的數(shù)據(jù),我認(rèn)為紙質(zhì)的媒體、書(shū)、報(bào)紙是最好的。大家發(fā)現(xiàn)ChatGPT說(shuō)的話是很漂亮很流暢的語(yǔ)言文字,而如果我們用論壇、微博等平臺(tái)上的文字訓(xùn)練它,它說(shuō)的內(nèi)容可能就不是那么優(yōu)美了?!?/u>

復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師黃萱菁。
“當(dāng)模型的參數(shù)規(guī)模還不太大的時(shí)候,你看不到它的強(qiáng)大,當(dāng)達(dá)到某一個(gè)臨界值時(shí),這個(gè)模型就會(huì)非常強(qiáng)大,目前我們認(rèn)為這個(gè)參數(shù)規(guī)模的臨界值可能是650億?!苯?,復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師黃萱菁在由復(fù)旦大學(xué)管理學(xué)院主辦的“復(fù)旦科創(chuàng)先鋒論壇”上說(shuō)道。 她認(rèn)為,在肉眼可見(jiàn)的未來(lái),善用AI的人將和不用AI的人在工作效率上產(chǎn)生巨大差距。
黃萱菁曾入選“人工智能全球女性”、“AI 2000人工智能全球最具影響力提名學(xué)者”及“福布斯中國(guó)2020科技女性榜”,主要從事人工智能、自然語(yǔ)言處理和信息檢索等方向研究,是復(fù)旦大學(xué)研發(fā)MOSS大模型的團(tuán)隊(duì)成員。
3月14日,OpenAI發(fā)布其具有里程碑意義的多模態(tài)大模型GPT-4,同時(shí)透露GPT-4已在新必應(yīng)(New Bing)中應(yīng)用。GPT-4的強(qiáng)大表現(xiàn)令人驚艷,支撐它的技術(shù)邏輯是什么?在復(fù)旦科創(chuàng)先鋒論壇現(xiàn)場(chǎng),黃萱菁做了詳細(xì)的科普。澎湃科技(www.nxos.com.cn)根據(jù)其現(xiàn)場(chǎng)講話整理了以下要點(diǎn)。
1.什么是語(yǔ)言模型?
無(wú)論學(xué)習(xí)漢語(yǔ)還是英語(yǔ)等語(yǔ)言,都是從語(yǔ)法開(kāi)始學(xué)起。但是光有語(yǔ)法,我們依然很難捕捉客觀世界紛繁復(fù)雜的語(yǔ)言現(xiàn)象,因?yàn)檎Z(yǔ)言并不會(huì)嚴(yán)格按照語(yǔ)法去表達(dá)。這個(gè)時(shí)候,就需要使用到數(shù)學(xué)“武器”——概率,在各種語(yǔ)言現(xiàn)象中去尋找規(guī)律。
舉個(gè)例子,“The cat sat on the mat”和“The cat sad on the mat”兩句話。假設(shè)語(yǔ)音識(shí)別任務(wù)需要根據(jù)讀音判斷是“sat”還是“sad”,那么通過(guò)對(duì)句子進(jìn)行概率分析,就能知道什么是正確的識(shí)別結(jié)果,這個(gè)概率模型就被稱為語(yǔ)言模型。
概率模型是有窗口的,當(dāng)窗口越來(lái)越大,所需要的計(jì)算量開(kāi)銷(xiāo)就越大。由于句子在諸多情景下可能包含巨大的詞匯量,導(dǎo)致傳統(tǒng)概率語(yǔ)言模型所需的計(jì)算資源爆炸式增長(zhǎng)。所謂大規(guī)模語(yǔ)言模型就是含有巨量參數(shù),能夠接受很長(zhǎng)一段時(shí)間窗口的語(yǔ)言文字。
2.預(yù)訓(xùn)練模型有哪兩種思路?
2017年開(kāi)始,出現(xiàn)了一個(gè)叫做Transformer的模型,這個(gè)模型就是現(xiàn)在預(yù)訓(xùn)練模型的基石,也是大規(guī)模語(yǔ)言模型的基石。傳統(tǒng)的預(yù)訓(xùn)練模型有兩種思路,第一種思路是以BERT(Bidirectional Encoder Representation from Transformers)為例的理解模型,另一種思路是以ChatGPT所基于的GPT(Generative Pre-trained Transformer)為代表的產(chǎn)生式模型。當(dāng)然也有一些工作嘗試把理解模型和產(chǎn)生式模型結(jié)合起來(lái)。
曾經(jīng)在很長(zhǎng)一段時(shí)間里,理解式的模型被使用得比較多,而產(chǎn)生式模型則需要更高的算力和更長(zhǎng)的窗口。一直到有了GPT-3之后,大家才知道它如此強(qiáng)悍,等有了ChatGPT,其還擁有很強(qiáng)的理解人類(lèi)上下文的能力。
3. ChatGPT的出現(xiàn)帶來(lái)什么樣的范式革新?
我們生活在一個(gè)飛速變化的時(shí)代,每個(gè)星期都有新的模型發(fā)布。
預(yù)訓(xùn)練+微調(diào)的方式是前ChatGPT時(shí)代的范式,諸如Google、OpenAI這樣的大廠將自身開(kāi)發(fā)的大模型開(kāi)源,供下游應(yīng)用者在這些模型上進(jìn)行參數(shù)微調(diào),以取得優(yōu)異的表現(xiàn)。比如,電影影評(píng)有正面和負(fù)面的,我們要進(jìn)行分類(lèi),僅僅用GPT和BERT效果不夠,需要人工標(biāo)注一批任務(wù)相關(guān)的數(shù)據(jù),對(duì)模型進(jìn)行微調(diào)。過(guò)去大概三年的時(shí)間,這種預(yù)訓(xùn)練+微調(diào)的范式就是自然語(yǔ)言處理的主要范式。
預(yù)訓(xùn)練+微調(diào)范式帶來(lái)了自然語(yǔ)言處理的新時(shí)代,對(duì)上游和下游都帶來(lái)深遠(yuǎn)影響。上游是廠商制造出越來(lái)越強(qiáng)大的模型,模型的參數(shù)規(guī)模以指數(shù)增長(zhǎng);下游則是將預(yù)訓(xùn)練的大模型合理應(yīng)用到各種任務(wù)上。
過(guò)去兩年有一個(gè)非常時(shí)髦的概念叫小樣本學(xué)習(xí)或少樣本學(xué)習(xí)。剛才我們說(shuō),如果要完成某一個(gè)任務(wù),可能需要人工標(biāo)注大量的數(shù)據(jù),但在少樣本場(chǎng)景之下,只需要一兩條數(shù)據(jù),大規(guī)模語(yǔ)言模型就能夠表現(xiàn)出相當(dāng)不錯(cuò)的性能。
不過(guò),當(dāng)語(yǔ)言模型變得更大時(shí),一方面廠商出于商業(yè)原因逐漸舍棄開(kāi)源,OpenAI沒(méi)有開(kāi)放過(guò)GPT-3模型,只開(kāi)放API(應(yīng)用程序編程接口),也就是說(shuō)可以調(diào)用,但拿不到內(nèi)部細(xì)節(jié)。ChatGPT連論文都沒(méi)放出,只能靠大家猜測(cè)。另一方面用戶也缺乏足夠的計(jì)算資源使用大模型,所以我們非常期待國(guó)產(chǎn)芯片,能夠讓我們擁有更多算力去運(yùn)行大規(guī)模語(yǔ)言模型。
這樣的情況之下,我們有了一個(gè)新的范式,就是要利用大規(guī)模語(yǔ)言模型的涌現(xiàn)能力。
4.涌現(xiàn)能力是什么?
所謂的涌現(xiàn)能力是什么?當(dāng)模型的參數(shù)規(guī)模還不太大時(shí),你看不到它的強(qiáng)大,當(dāng)達(dá)到某一個(gè)臨界值時(shí),這個(gè)模型就會(huì)非常強(qiáng)大,目前我們認(rèn)為這個(gè)參數(shù)規(guī)模的臨界值可能是650億。
早期的GPT-3還不太理解用戶的需求,但最近不管是ChatGPT還是我們實(shí)驗(yàn)室開(kāi)發(fā)的MOSS,都擁有了比較強(qiáng)的寫(xiě)代碼能力。我們發(fā)現(xiàn)代碼是非常好的數(shù)據(jù)。因?yàn)榇a有邏輯性,是結(jié)構(gòu)化的,還帶有注釋和文檔,我們可以進(jìn)行語(yǔ)義方面的對(duì)齊(Alignment,保持一致)。至于什么數(shù)據(jù)是最好的數(shù)據(jù),我認(rèn)為紙質(zhì)的媒體、書(shū)、報(bào)紙是最好的。大家發(fā)現(xiàn)ChatGPT說(shuō)的話是很漂亮很流暢的語(yǔ)言文字,而如果我們用論壇、微博等平臺(tái)上的文字訓(xùn)練它,它說(shuō)的內(nèi)容可能就不是那么優(yōu)美了,這一點(diǎn)很有趣。
5.如何解決大模型開(kāi)銷(xiāo)巨大的問(wèn)題?
GPT-3發(fā)布于2020年,只公開(kāi)了API,人們只能通過(guò)接口使用,并授權(quán)了很多公司在上面開(kāi)發(fā)小業(yè)務(wù)。通過(guò)這個(gè)過(guò)程,其搜集了大量的用戶行為,知道哪些需求是用戶感興趣的,哪些任務(wù)是用戶關(guān)心的,基于人類(lèi)的反饋來(lái)訓(xùn)練語(yǔ)言模型,了解人類(lèi)的價(jià)值觀。
訓(xùn)練大模型的開(kāi)銷(xiāo)非常大,需要大量的算力,中小公司會(huì)感到負(fù)擔(dān)很重,根本無(wú)法簡(jiǎn)單進(jìn)行這樣的語(yǔ)言模型訓(xùn)練。于是我們可以嘗試把語(yǔ)言模型做成一個(gè)服務(wù),你跟它進(jìn)行交流,它給你反饋結(jié)果。我們還可以通過(guò)無(wú)梯度優(yōu)化(在優(yōu)化過(guò)程中不計(jì)算目標(biāo)函數(shù)的梯度,只利用目標(biāo)函數(shù)的值去優(yōu)化目標(biāo)函數(shù))的方法寫(xiě)出更加高質(zhì)量的提示或者指令,讓它更大程度展現(xiàn)其能力。
在語(yǔ)言模型服務(wù)方面,我們從兩個(gè)方面開(kāi)展工作,首先要開(kāi)發(fā)模型基座,在過(guò)去幾年,我們開(kāi)發(fā)了億級(jí)規(guī)模、十億規(guī)模到百億規(guī)模的參數(shù),目前跟GPT-3相比,我們大概差一個(gè)數(shù)量級(jí)。此外,我們還研究怎樣利用語(yǔ)言模型的能力對(duì)它進(jìn)行調(diào)優(yōu),讓它實(shí)現(xiàn)各種各樣的任務(wù)。
6.這幾年,自然語(yǔ)言處理范式發(fā)生了怎樣的遷移?
自然語(yǔ)言處理有七種范式:分類(lèi)、匹配、序列標(biāo)注、機(jī)器閱讀理解、Seq2Seq(輸出的長(zhǎng)度不確定時(shí)采用的模型)、Seq2ASeq(序列到動(dòng)作序列)和掩碼語(yǔ)言模型范式(訓(xùn)練語(yǔ)言模型來(lái)預(yù)測(cè)被遮蓋的詞語(yǔ),以便在進(jìn)行文本生成或其他任務(wù)時(shí)更準(zhǔn)確地預(yù)測(cè)語(yǔ)言)。這些也是這幾年自然語(yǔ)言處理的范式遷移。
ChatGPT強(qiáng)大的就是其多任務(wù)能力,不需要事先教它,它就已經(jīng)能夠處理各種各樣的任務(wù)。實(shí)際上ChatGPT已經(jīng)通過(guò)與人類(lèi)的交流,比如標(biāo)注一萬(wàn)多條用戶數(shù)據(jù),加上人工寫(xiě)了很多高質(zhì)量答案,再用這些數(shù)據(jù)訓(xùn)練,由此知道了人類(lèi)的需求。
現(xiàn)在我們有許許多多的公司,每個(gè)公司做一件任務(wù),并把這個(gè)任務(wù)做到極致,就能夠占領(lǐng)一個(gè)細(xì)分領(lǐng)域。
未來(lái)自然語(yǔ)言處理將與現(xiàn)在不同?!捌叻N武器”的時(shí)代,我們有各種各樣的范式。現(xiàn)在,一個(gè)模型就可以打天下。
7.MOSS是如何訓(xùn)練出來(lái)的?
統(tǒng)一模型基座,可以用一種武器、一個(gè)方法統(tǒng)一所有的任務(wù)。我們?cè)?021年的一個(gè)工作(早于ChatGPT的出現(xiàn)),沒(méi)有做幾千種任務(wù),而只做了兩類(lèi)。
第一類(lèi)任務(wù)是情感分析,有七個(gè)小類(lèi)。我們提出用生成式的框架,把一個(gè)任務(wù)轉(zhuǎn)為語(yǔ)言模型能生成的輸出形式。這樣的話只要少量任務(wù)數(shù)據(jù)就可以訓(xùn)練出一個(gè)語(yǔ)言模型。我們這個(gè)模型用的基座是BART(BART吸收了BERT和GPT各自的特點(diǎn)),如果我們用了更強(qiáng)悍的基座,可以把需要的樣例減到更少。
BERT針對(duì)的是自然語(yǔ)言的理解,GPT是自然語(yǔ)言的生成。既然構(gòu)造大模型的初衷是為了合眾歸一,那么能不能將它們匯總到一起?我們?cè)?021年提出一個(gè)新的語(yǔ)言模型叫CPT,將理解任務(wù)和生成任務(wù)合并到一起。CPT是一個(gè)非對(duì)稱的Transformer模型結(jié)構(gòu),該結(jié)構(gòu)由一個(gè)Encoder(任務(wù)間共用)和兩個(gè)Decoder(一個(gè)面向理解,一個(gè)面向生成)組成,既具備理解的能力又具備生成的能力。
我們從去年年底開(kāi)始訓(xùn)練MOSS,是在CPT的基礎(chǔ)之上訓(xùn)練的。我們給它用了更多的算力和數(shù)據(jù),訓(xùn)練了兩個(gè)月,然后出來(lái)了目前這樣一個(gè)版本。
8. 在ChatGPT時(shí)代,我們?cè)撛鯓邮褂谜Z(yǔ)言模型?
在ChatGPT時(shí)代,對(duì)于如何使用語(yǔ)言模型,我們有幾個(gè)思路。
第一個(gè)思路叫做Text prompt(文本提示),通過(guò)人工設(shè)計(jì)一些基于文本的指令,激活大模型面向特定下游任務(wù)的能力。但是這偏向于特征工程問(wèn)題,需要工程師依據(jù)既往經(jīng)驗(yàn)不斷調(diào)試,十分耗費(fèi)精力。
第二個(gè)思路是In-context learning(情景學(xué)習(xí)),在GPT模型上展示了良好表現(xiàn)。這種手段開(kāi)辟了一個(gè)極具前景的方向,值得學(xué)界和工業(yè)界繼續(xù)共同研究。
第三個(gè)思路是Data generation(數(shù)據(jù)生成),不同于直接使用大模型,這種手段是使用大模型生成一定量的數(shù)據(jù),再利用生成的數(shù)據(jù)訓(xùn)練一個(gè)小體量的模型,以追求在小樣本場(chǎng)景下的應(yīng)用效果。
第四個(gè)思路是Feature-based-learning(特征學(xué)習(xí)),把預(yù)訓(xùn)練模型的輸出作為一種Feature,并結(jié)合標(biāo)簽,輸入給一些特定的模型,使參數(shù)由標(biāo)簽空間向特征空間靠攏,這極大地減輕了端側(cè)優(yōu)化的負(fù)擔(dān)。我們提出標(biāo)簽調(diào)優(yōu)方法,這屬于特征學(xué)習(xí)范疇。
什么是標(biāo)簽調(diào)優(yōu)?我們?cè)谧鰴C(jī)器學(xué)習(xí)時(shí)一般是先有一個(gè)特征空間,比如情感分析褒義詞和貶義詞,分詞的話可以用上姓氏、稱謂等特征。以前的做法是在標(biāo)簽空間做微調(diào),但我們發(fā)現(xiàn)其實(shí)還可以反而求之。我們凍結(jié)參數(shù),然后讓標(biāo)簽向參數(shù)空間調(diào)整,將來(lái)就可以用統(tǒng)一生成式的框架解決問(wèn)題,比如在做分類(lèi)任務(wù)時(shí)可以直接讓它生成類(lèi)別標(biāo)簽。
第五個(gè)思路是Black-box optimization(黑箱優(yōu)化),讓用戶根據(jù)推理API的返回結(jié)果,使用基于搜索的無(wú)梯度優(yōu)化(在優(yōu)化過(guò)程中不計(jì)算目標(biāo)函數(shù)的梯度,只利用目標(biāo)函數(shù)的值去優(yōu)化目標(biāo)函數(shù))方法自己優(yōu)化指令。
并不是所有的人、所有的公司、所有的學(xué)校都可以訓(xùn)練ChatGPT這樣的模型。怎么樣能夠讓ChatGPT等大模型返回更加符合個(gè)性化需求的結(jié)果?我們想了一個(gè)很巧妙的方法,在用戶指令上加一段,比如實(shí)數(shù)的向量表示,然后把它送到大模型ChatGPT,返回一個(gè)結(jié)果。這樣可以計(jì)算出來(lái)現(xiàn)在這個(gè)模型是不是能夠滿足我們的需求,然后我們可以去調(diào)整指示。因?yàn)槲覀冊(cè)黾拥囊恍《蜗蛄靠梢孕薷?,?jīng)過(guò)修改讓它做一些自適應(yīng)的調(diào)整,得到更好的結(jié)果。
9.我們?nèi)绾螠y(cè)試ChatGPT?
對(duì)于ChatGPT,我們已經(jīng)有一些很直覺(jué)的認(rèn)識(shí),比如能寫(xiě)作文,寫(xiě)案件的判決,寫(xiě)發(fā)言稿。它的能力范圍在哪里?首先是情景學(xué)習(xí),給它例子,它會(huì)返回跟例子相似的答案。ChatGPT用了很多代碼進(jìn)行訓(xùn)練,如果大家在跟它交流的時(shí)候,讓它做數(shù)學(xué)題,而不是直接給例子,直接把這個(gè)過(guò)程用數(shù)學(xué)公式寫(xiě)出來(lái),或者用程序代碼編出來(lái),它就會(huì)做得非常好。
ChatGPT還有一個(gè)跟人類(lèi)反饋對(duì)齊的過(guò)程,它找了很多專(zhuān)家,對(duì)一萬(wàn)多個(gè)問(wèn)題寫(xiě)了很多答案,用這樣的任務(wù)數(shù)據(jù)提升模型性能。然后強(qiáng)化學(xué)習(xí),用它的模型隨機(jī)生成若干個(gè)答案,讓許多人標(biāo)注,從而學(xué)習(xí)人類(lèi)的價(jià)值取向,再用這個(gè)價(jià)值取向修改模型,用新的模型重新再去提升它的性能,最后和人類(lèi)需求越來(lái)越對(duì)齊。
ChatGPT曾經(jīng)參加谷歌的招聘面試,拿到L3級(jí)入門(mén)工程師的offer。除了寫(xiě)代碼之外,我們也讓ChatGPT做做中國(guó)的高考題,比如2022年高考?xì)v史甲卷的第一題,需要分析給定文本“天下太和,百姓無(wú)事”最接近的政治理念。ChatGPT分析認(rèn)為,根據(jù)題干信息,這一思想最接近老子“無(wú)為而治”的道家思想,這個(gè)答案也是正確的。我們?cè)诳陀^題上對(duì)ChatGPT進(jìn)行了測(cè)試,ChatGPT的水平基本相當(dāng)于500分左右的高考生。我們發(fā)現(xiàn)ChatGPT更擅長(zhǎng)文科,在歷史、地理、政治上取得了不錯(cuò)的成績(jī),而生物、化學(xué)、物理等理科學(xué)科上表現(xiàn)不佳,尤其在物理上。
我們實(shí)驗(yàn)室在3月2日發(fā)布了一個(gè)針對(duì)ChatGPT的測(cè)試報(bào)告,對(duì)ChatGPT的各種各樣模型基座進(jìn)行了幾十萬(wàn)次測(cè)試。我們發(fā)現(xiàn),在閱讀理解任務(wù)上,ChatGPT已經(jīng)比現(xiàn)在最好的方法都強(qiáng)。在關(guān)系提取方面,ChatGPT的提取性能還不太好。
我們發(fā)現(xiàn)ChatGPT的強(qiáng)大性能都是在現(xiàn)有機(jī)器學(xué)習(xí)框架下可以解釋的,并沒(méi)有很玄的東西。我相信今年國(guó)內(nèi)、國(guó)際,還會(huì)有很多機(jī)構(gòu),包括大學(xué)和企業(yè)在類(lèi)ChatGPT模型方面有大的突破。
10. 如何跟ChatGPT競(jìng)爭(zhēng)?
以后我們應(yīng)該怎么樣跟ChatGPT錯(cuò)位競(jìng)爭(zhēng)?它做得好的事情可能就不再是我們的重點(diǎn),做得不好的地方還可以進(jìn)一步改進(jìn)。
在肉眼可見(jiàn)的未來(lái),善用AI的人將和不用AI的人在工作效率上產(chǎn)生巨大差距,因此我鼓勵(lì)大家多去使用和熟悉與AI進(jìn)行溝通。在一段時(shí)間內(nèi),ChatGPT還不足以完全替代某一個(gè)崗位,但將大大促進(jìn)各個(gè)領(lǐng)域的生產(chǎn)效率,我們希望AI是幫助人類(lèi)的工具,而不是取代人類(lèi)的機(jī)器。
最后以微軟CEO薩提亞·納德拉(Satya Nadella)接受媒體采訪時(shí)的一個(gè)觀點(diǎn)作為結(jié)尾,內(nèi)燃機(jī)帶來(lái)了廉價(jià)的動(dòng)力,互聯(lián)網(wǎng)技術(shù)減少了信息傳遞的成本,而ChatGPT會(huì)讓信息的整合、轉(zhuǎn)譯、流通變得更加廉價(jià)。AI可能會(huì)像工業(yè)革命和信息革命一樣,引領(lǐng)我們走向下一個(gè)時(shí)代。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




