- +1
復(fù)旦MOSS團(tuán)隊(duì):參數(shù)規(guī)模約是ChatGPT的1/10,將圍繞三方面優(yōu)化
MOSS“火”了。2月20日發(fā)布當(dāng)天就收到大量?jī)?nèi)測(cè)申請(qǐng)、采訪、投資、合作邀約——公眾對(duì)于這項(xiàng)原本局限于NLP(自然語言處理)學(xué)術(shù)圈的新技術(shù)熱情高漲。邱錫鵬團(tuán)隊(duì)對(duì)此頗感意外,但又很快回歸平靜。
大家最興奮的一天,是春節(jié)前的臘月二十八。項(xiàng)目主開發(fā)者、計(jì)算機(jī)科學(xué)技術(shù)學(xué)院博士研究生孫天祥,在測(cè)試過程中輸入了一個(gè)中文問題,MOSS卻以英文正確回答,“就像一個(gè)不會(huì)說但聽得懂中文的人”。而當(dāng)時(shí)版本的MOSS還很初級(jí),中文語料占所有訓(xùn)練數(shù)據(jù)不到0.1%。

本文圖片均為“復(fù)旦大學(xué)”微信公號(hào) 圖
“很神奇,我們沒有教過它機(jī)器翻譯。”MOSS顯示出的潛能讓邱錫鵬當(dāng)晚激動(dòng)到失眠。他把MOSS比作一個(gè)“聰明的小孩”,即便現(xiàn)在還不擅長(zhǎng)寫詩(shī)、解題或很多具體的事,但已展示出成為通用人工智能(AGI)大框架的潛能,“很多遙不可及的事情,它一點(diǎn)就通了?!睂?shí)際上,邱錫鵬也讓6歲的女兒和MOSS聊天,發(fā)現(xiàn)孩子可以愉快地和MOSS對(duì)話很長(zhǎng)時(shí)間。
MOSS受到關(guān)注的背后,是科研人員十年如一日的積淀。作為一名人工智能研究專家,邱錫鵬從讀博期間就開始涉獵機(jī)器學(xué)習(xí),留校工作后進(jìn)入自然語言處理研究領(lǐng)域。他和團(tuán)隊(duì)在自然語言處理的基礎(chǔ)模型和基礎(chǔ)算法上形成了很多創(chuàng)新的研究成果。邱錫鵬的著作《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》被廣大讀者親切稱為“蒲公英書”,在許多“人工智能必看書單”中榜上有名。去年,他還帶領(lǐng)團(tuán)隊(duì)獲得了中國(guó)中文信息學(xué)會(huì)“錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)”一等獎(jiǎng)。
這些天,邱錫鵬與他的MOSS團(tuán)隊(duì)——8位年輕的復(fù)旦學(xué)生——繼續(xù)緊鑼密鼓地開展內(nèi)測(cè)和迭代工作。新模型預(yù)計(jì)在3月份底優(yōu)化完成,后期再逐步對(duì)社會(huì)開放。

MOSS團(tuán)隊(duì)合影(左六為邱錫鵬)
目前已參與內(nèi)測(cè)的一些用戶表示,盡管MOSS在參數(shù)規(guī)模上和ChatGPT相比小一個(gè)量級(jí),事實(shí)性問題覆蓋不夠全面,經(jīng)常會(huì)“一本正經(jīng)地胡說八道”,但確實(shí)有“ChatGPT那味兒”,“基本功能都實(shí)現(xiàn)了”。
邱錫鵬很樂觀,認(rèn)為在不遠(yuǎn)的將來,MOSS這類大型語言模型會(huì)成為和搜索引擎一樣常規(guī)的存在,為人們生活的方方面面提供助益。
開源(即開放源代碼和模型參數(shù))是邱錫鵬和復(fù)旦自然語言處理實(shí)驗(yàn)室的同仁們一直以來的學(xué)術(shù)堅(jiān)持。“這次也會(huì)將研究成果開放給公眾與社會(huì)?!彼f。
【深度對(duì)話MOSS團(tuán)隊(duì)】
“我們想證明,在有限的資源下,也能做出類ChatGPT模型”
Q1:可否簡(jiǎn)單介紹一下MOSS?這種“大型對(duì)話式語言模型”和我們?nèi)粘J褂玫腟iri、小度、小愛等聊天機(jī)器人有什么區(qū)別?邱錫鵬:我可以打個(gè)比方,這兩者的關(guān)系就像智能手機(jī)和功能手機(jī)。之前的聊天系統(tǒng)還屬于弱人工智能,設(shè)計(jì)它們就是用來聊天的,就像傳統(tǒng)的功能手機(jī)只能用來打電話;而現(xiàn)在的大型語言模型,像ChatGPT、MOSS,它們能做很多事,聊天只是功能之一,就像智能手機(jī)可以用來打電話,但它的功能遠(yuǎn)遠(yuǎn)不止于此。
就ChatGPT、MOSS而言,它們具備的是一種通用能力,可以幫助人類完成各種各樣的事情,只不過以對(duì)話形式呈現(xiàn)。它可以完成自然語言處理領(lǐng)域的絕大部分任務(wù),包括機(jī)器翻譯、信息抽取、糾錯(cuò)等。它們還可以在學(xué)習(xí)使用外部工具后,與外部世界進(jìn)行交互,進(jìn)行創(chuàng)作。這些都是現(xiàn)有的聊天機(jī)器人所不具備的。應(yīng)該說,這種對(duì)話式大型語言模型向我們展示了一條通向“通用人工智能”的嶄新路徑。
Q2:團(tuán)隊(duì)2月20日發(fā)布了MOSS模型,是剛剛建成嗎?前后花了多長(zhǎng)時(shí)間?
邱錫鵬:事實(shí)上,我們?cè)诖汗?jié)前就開發(fā)出了第一代模型。它顯示出了很大的潛能,與之前的聊天系統(tǒng)大不相同,有著不錯(cuò)的人類意圖理解能力,也有很多涌現(xiàn)能力,比如未經(jīng)訓(xùn)練就學(xué)會(huì)了機(jī)器翻譯。之后,我們又花了一個(gè)多月的時(shí)間打磨它的工程部署情況,比如提高效率、優(yōu)化界面等。
對(duì)公眾而言,ChatGPT、MOSS這些模型的出現(xiàn)或許非常突然;但對(duì)于一直關(guān)注這個(gè)領(lǐng)域的人來說,一切都有跡可循。比如Google在這個(gè)領(lǐng)域的技術(shù)研發(fā)并不亞于OpenAI,只不過OpenAI把這件事做得比較極致,并且提出了“對(duì)話”這種非常創(chuàng)新的交互形式,賦予了大型語言模型與人類直接交互的能力,使大型語言模型看起來非常智能。
MOSS的開發(fā)同樣不是一蹴而就,它離不開我們團(tuán)隊(duì)過去的鋪墊工作和長(zhǎng)期積累的研究經(jīng)驗(yàn)。從2021年起,我們就開始做中文生成式預(yù)訓(xùn)練模型,也開源供別人下載,每月平均有上萬次下載。后面我們又提出“語言模型即服務(wù)”的概念,認(rèn)為基礎(chǔ)語言模型會(huì)成為語言服務(wù)的基座。22年因?yàn)橐庾R(shí)到大型語言模型會(huì)成為將來的基座,所以開始做大型語言模型方面的訓(xùn)練。后來又花費(fèi)了半年時(shí)間,研究如何使大型語言模型理解人類指令以及具備對(duì)話能力。

MOSS對(duì)話演示

MOSS對(duì)話演示
Q3:MOSS如何能夠?qū)崿F(xiàn)“端到端”走通大語言模型,克服了哪些難點(diǎn)?
邱錫鵬:“端到端”是一個(gè)學(xué)術(shù)概念,指的是從零開始,信息收集、數(shù)據(jù)處理、建立模型,到最終形成一個(gè)具有和人類對(duì)話能力的大模型,中間所有技術(shù)路徑可以走通,這個(gè)就叫由起點(diǎn)到終點(diǎn)的“端到端”。因?yàn)镺penAI至今沒有公布開發(fā)ChatGPT的技術(shù)路線和技術(shù)細(xì)節(jié),所以我們需要靠有限的公開信息來自己摸索。
這個(gè)過程非常難,包含了非常多經(jīng)驗(yàn)性、直覺性的設(shè)計(jì),關(guān)鍵要打通兩步:第一是基座,大型語言模型的基座不是簡(jiǎn)單的參數(shù)足夠大就可以,還需要賦予大型語言模型各種各樣的知識(shí)能力、學(xué)習(xí)能力,還有邏輯推理能力。第二就是要通過一些指令觸發(fā)它的對(duì)話能力,讓它理解人類意圖,與人類能夠交互對(duì)話。
到目前為止,我們還能把控技術(shù)路線,但未來可能會(huì)面臨更大的困難,因?yàn)槲覀兪占朔浅6嗪腿祟惤换サ闹噶?,要賦予它價(jià)值觀和各種各樣的能力,就要請(qǐng)一些專業(yè)人士來幫助我們?cè)O(shè)計(jì),進(jìn)一步增強(qiáng)MOSS各方面的能力。
Q4:你們的團(tuán)隊(duì)構(gòu)成如何?
邱錫鵬:我們自然語言處理實(shí)驗(yàn)室是上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室的一部分,團(tuán)隊(duì)中老師和學(xué)生加起來近百人,一直積極貫徹學(xué)校和學(xué)院推進(jìn)的有組織科研模式,聚焦自然語言處理和人工智能的國(guó)際前沿技術(shù)研究。和大型語言模型基座研究相關(guān)的學(xué)生有30余人。
“上熱搜出乎預(yù)料,取名MOSS是致敬《流浪地球2》”

Q1:MOSS模型一經(jīng)發(fā)布就備受關(guān)注,對(duì)此,你們有預(yù)想到嗎?
邱錫鵬:上熱搜完全出乎我們的預(yù)料。關(guān)注度這么高,我想可能是大家對(duì)國(guó)內(nèi)團(tuán)隊(duì)做出類ChatGPT模型比較興奮,興奮的原因則在于之前有很多聲音,說我們和國(guó)外的技術(shù)水平差距非常大,想追上的話,要花很長(zhǎng)時(shí)間。但我們的努力證明,其實(shí)不需要那么久。
Q2:國(guó)內(nèi)外已有不少公司正在研發(fā)類ChatGPT模型,投入不菲。作為一個(gè)高校學(xué)術(shù)研究團(tuán)隊(duì),你們開發(fā)MOSS模型的初衷是什么?
邱錫鵬:我們開發(fā)MOSS模型,是想在百億規(guī)模參數(shù)上探索和驗(yàn)證ChatGPT的技術(shù)路線,證明我們?cè)诩夹g(shù)實(shí)現(xiàn)上并不落后于國(guó)外。另外也是想證明,這種技術(shù)也并非一定被大公司壟斷,我們這樣一個(gè)學(xué)術(shù)研究的實(shí)驗(yàn)室,在相對(duì)有限的資源下,也能夠做出類ChatGPT模型。
當(dāng)然,我們開發(fā)MOSS模型,不止于追求和ChatGPT能力相近的模型。MOSS的定位是自然語言處理領(lǐng)域乃至是通用人工智能領(lǐng)域最前沿的探索。也許工業(yè)界更看重它的落地性能,而我們更看重它的下一代發(fā)展,即如何實(shí)現(xiàn)通用人工智能。從學(xué)術(shù)角度出發(fā),只有我們比OpenAI看得更遠(yuǎn)、更超前,才可能最終實(shí)現(xiàn)超越。我們堅(jiān)信,學(xué)術(shù)界在這個(gè)領(lǐng)域大有可為。
Q3:MOSS的名字是怎么來的?
邱錫鵬:在學(xué)術(shù)圈,大家非常喜歡用影視形象給自己開發(fā)的AI模型命名,也是一個(gè)比較常見的做法。比如,Transformer模型、Megatron模型名稱取自《變形金剛》,BERT模型、ERNIE模型化用了《芝麻街》中的角色形象。那么,我們開發(fā)出這個(gè)具有對(duì)話能力的大型語言模型之后,也想找一個(gè)國(guó)產(chǎn)的、能夠代表中國(guó)特色的影視形象來命名。
開發(fā)過程中,正逢《流浪地球2》電影熱映,我們的團(tuán)隊(duì)成員都非常喜歡《流浪地球2》,也都是《流浪地球2》的粉絲。影片中的智能量子計(jì)算機(jī)MOSS給我們留下了深刻的印象,所以我們就把模型命名為MOSS,也是向《流浪地球2》這部電影致敬。這幾天也有《流浪地球2》的粉絲們給我們發(fā)郵件,希望我們一定要加油,真的能夠做出來。
Q4:內(nèi)測(cè)進(jìn)展如何,發(fā)現(xiàn)了哪些問題?服務(wù)器能支持多少用戶同時(shí)在線?2月20日晚上,無法使用MOSS的原因是什么?
孫天祥:內(nèi)測(cè)報(bào)名非常踴躍,我們第一天就收到了大量報(bào)名申請(qǐng)。大家也發(fā)現(xiàn)了不少問題,反饋也是兩極分化明顯。對(duì)現(xiàn)在的MOSS來講,好的案例絕對(duì)可以挑出很多,壞的案例也一抓一大把(特別是中文),也就是“上限高、下限低”。我們希望在下一版能控制好下限。
2月20日晚,MOSS上微博熱搜后,我們的服務(wù)器瞬時(shí)訪問量達(dá)到上千萬。作為一個(gè)學(xué)術(shù)研究型實(shí)驗(yàn)室,我們的服務(wù)器資源相對(duì)有限,因而發(fā)生了網(wǎng)絡(luò)擁擠??梢源騻€(gè)比方,就像我們做好了菜,在一個(gè)屋里等大家來吃,結(jié)果因?yàn)閬淼娜颂嗔?,大多?shù)人沒進(jìn)屋子在院子里就堵住了。但后來,我們隨機(jī)選擇近千名報(bào)名用戶發(fā)送了內(nèi)測(cè)邀請(qǐng)碼,服務(wù)器運(yùn)行沒有什么壓力。目前,MOSS服務(wù)器的最大容納人數(shù)在幾萬左右。
“比起事實(shí)類的知識(shí)儲(chǔ)備,模型的邏輯思維能力更值得大家關(guān)注”
Q1:MOSS與ChatGPT相比,有哪些主要差異?邱錫鵬:最大差異還是參數(shù)規(guī)模。ChatGPT的參數(shù)量多達(dá)1750億個(gè),而MOSS的參數(shù)量比其小一個(gè)數(shù)量級(jí),大約是前者的1/10左右。我們選擇百億規(guī)模這樣級(jí)別的參數(shù),是因?yàn)閷W(xué)術(shù)界主要是做一些探索性的技術(shù),這個(gè)規(guī)模也在財(cái)力物力承受范圍之內(nèi)。我們認(rèn)為在這個(gè)參數(shù)級(jí)別上,這些模型也能涌現(xiàn)出一定的智能能力,我們也能賦予它們對(duì)話的能力。實(shí)驗(yàn)結(jié)果證實(shí)了我們的猜想,MOSS模型可以非常順利地與人類進(jìn)行聊天互動(dòng)。
另外一大差異就是迭代能力。用戶量越大,交互數(shù)據(jù)越多,模型的迭代能力就越強(qiáng)。ChatGPT作為新一輪人工智能賽跑的領(lǐng)跑者,遙遙領(lǐng)先收集了大量用戶的交互數(shù)據(jù),OpenAI可以在此數(shù)據(jù)的基礎(chǔ)上,把這個(gè)模型和數(shù)據(jù)的飛輪轉(zhuǎn)起來。這也就是為什么,ChatGPT現(xiàn)在的寫作能力比剛上線時(shí)提升了很多。
上述參數(shù)量和交互數(shù)據(jù)量的差異,進(jìn)一步導(dǎo)致了MOSS和ChatGPT在事實(shí)類知識(shí)儲(chǔ)備上的差距,表現(xiàn)為MOSS在回答事實(shí)類問題時(shí)更容易出錯(cuò)。一般來說,模型所要掌握的能力可以分為兩種:一種是事實(shí)類,比如“上海在哪里”“上海有多少人口”;另一種是邏輯類,比如對(duì)人類意圖的理解能力和對(duì)人類指令的理解能力。事實(shí)類知識(shí)遵從二八法則,80%都是長(zhǎng)尾知識(shí),不知道就是不知道,但不代表模型不會(huì)學(xué)習(xí)。我們很容易通過擴(kuò)大知識(shí)庫(kù),擴(kuò)大模型的學(xué)習(xí)語料和參數(shù)規(guī)模,讓模型具有更多的知識(shí)。因此,我認(rèn)為,大家在關(guān)注ChatGPT、MOSS這種模型的時(shí)候,更應(yīng)該看重它的理解能力、學(xué)習(xí)能力以及思維能力,而不是看重它的事實(shí)類知識(shí)儲(chǔ)備。如果從邏輯類能力來看,我覺得MOSS的表現(xiàn)其實(shí)還不錯(cuò)。
Q2:MOSS的科技創(chuàng)新點(diǎn)在哪里?
邱錫鵬:MOSS的特點(diǎn)是小規(guī)模,比較容易適應(yīng)個(gè)性化模型。從國(guó)內(nèi)來看,大部分企業(yè)都有非常大的需求去接入AI服務(wù),但如果直接把ChatGPT這么大的模型遷移過來,企業(yè)是用不起來的。MOSS這種百億級(jí)規(guī)模就非常合適,可以企業(yè)內(nèi)部私有部署,經(jīng)過一些數(shù)據(jù)微調(diào)就可以轉(zhuǎn)化為生產(chǎn)力。
所以我們覺得,在MOSS這個(gè)級(jí)別模型上,可以賦予更多專業(yè)化能力,比如接入外部知識(shí)庫(kù),增加搜索或特定領(lǐng)域工具的能力。就像人類一樣,很多能力也不夠,但我們可以使用工具來把我們的能力放大,比如記憶不夠,可以通過查詞典、使用搜索引擎。對(duì)MOSS也是一樣。如果它本身的知識(shí)量不是那么大,我們就要想其他方法,讓它更善于使用各種各樣的工具,從而為各行各業(yè)賦能。這個(gè)可能是我們未來會(huì)和ChatGPT最主要的差異。
Q3:MOSS模型目前是純英文界面,中文水平也明顯不如英文水平,原因是什么?
孫天祥:我們開發(fā)MOSS模型的首要目標(biāo)是驗(yàn)證技術(shù)路線。目前,開源社區(qū)中現(xiàn)有的能夠公開獲取的高質(zhì)量英文數(shù)據(jù)集很多,而高質(zhì)量中文數(shù)據(jù)集則較少。這是因?yàn)橹形木W(wǎng)頁(yè)上的干擾信息比如廣告較多,語料清洗難度較大。為了先驗(yàn)證技術(shù)路線,我們就推出了這個(gè)英文界面的版本。
邱錫鵬:MOSS的中文水平確實(shí)存在不足,我們已經(jīng)開始自己構(gòu)造一些高質(zhì)量的中文數(shù)據(jù)。雖然還需要一定時(shí)間,但我們相信MOSS將來一定會(huì)具有很好的中文理解能力和生成能力。我們的目標(biāo)也是打造一個(gè)具有中國(guó)特色的中文大型語言模型。
Q4:人工智能是一把“雙刃劍”。關(guān)于帶有倫理性、價(jià)值觀的指令,你們?nèi)绾斡?xùn)練MOSS?
邱錫鵬:這也是我們要進(jìn)一步加強(qiáng)的。一旦你把你的模型看成是一個(gè)智能體,其實(shí)不只關(guān)心它回答問題的正確性或者準(zhǔn)確率,還會(huì)關(guān)心其他的,比如保證它至少不對(duì)人類產(chǎn)生危害。但人類的倫理觀、價(jià)值觀是非常多樣的,接下來,不光是我們做技術(shù)的,還需要從事法律、倫理研究的相關(guān)人士一起參與共建大型語言模型。在這一點(diǎn)上,我們可以充分發(fā)揮復(fù)旦交叉學(xué)科和綜合性大學(xué)的優(yōu)勢(shì)。
“我很樂觀,通用人工智能由科幻步入現(xiàn)實(shí),應(yīng)該不會(huì)很遠(yuǎn)”
Q1:您認(rèn)為中國(guó)版ChatGPT模型建設(shè)的必要性和價(jià)值在哪里?邱錫鵬:首先,從大的方向來看,像ChatGPT模型,它并不向中國(guó)內(nèi)地開放。中國(guó)要想站在大型語言模型或者將來的通用人工智能等技術(shù)的最前沿,就必須要建設(shè)自己的語言模型基座。其次,國(guó)外開發(fā)者不太可能以中文為主去發(fā)展他們的模型,他們的發(fā)展重點(diǎn)還是在英文上。那么,我們要想開發(fā)一個(gè)大型語言模型的基座,用于國(guó)內(nèi)的信息處理,特別是中文信息處理,就必須建設(shè)一個(gè)中文能力非常強(qiáng)的大型語言模型。
Q2:MOSS的優(yōu)化會(huì)包括哪些方面?團(tuán)隊(duì)對(duì)MOSS模型的近期目標(biāo)和最終期待分別是什么?
邱錫鵬:未來,MOSS的優(yōu)化將會(huì)圍繞三方面展開。第一,我們會(huì)準(zhǔn)備更高質(zhì)量的中文數(shù)據(jù);第二,我們會(huì)開放接口,讓MOSS與人類進(jìn)行對(duì)話,收集更多的對(duì)話數(shù)據(jù);第三,我們會(huì)進(jìn)一步加大投入,擴(kuò)大它的參數(shù)規(guī)模,如果MOSS的參數(shù)規(guī)模能夠上升到500億或者1000億,它的能力就又會(huì)大幅提升。
近期的目標(biāo),是希望MOSS成為國(guó)內(nèi)技術(shù)比較領(lǐng)先的對(duì)話式語言模型。我們希望能堅(jiān)持做一個(gè)不為利潤(rùn)所驅(qū)使的研究機(jī)構(gòu),把研究成果無償?shù)胤窒斫o學(xué)術(shù)界,也在合法合規(guī)的前提下把研究成果開放給業(yè)界,讓他們?nèi)プ龆ㄖ苹蛘咴谔厥忸I(lǐng)域的應(yīng)用。下一步進(jìn)行順利的話,我們會(huì)于3月底左右開源。
長(zhǎng)遠(yuǎn)來看,我們期待把MOSS作為一個(gè)通向通用人工智能的基座,讓它變成一個(gè)像科幻片角色的真實(shí)存在。我很樂觀,我覺得通用人工智能由科幻步入現(xiàn)實(shí),應(yīng)該不會(huì)很遠(yuǎn),也許5到10年。那時(shí),我們會(huì)像現(xiàn)在接受搜索引擎一樣,接受通用人工智能。
(原標(biāo)題為《研究成果將會(huì)開源!復(fù)旦MOSS團(tuán)隊(duì)深度訪談來了》)





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




