專訪Unity中國技術(shù)總監(jiān)：AIGC為元宇宙帶來生產(chǎn)流程的進(jìn)化

澎湃新聞?dòng)浾?吳天一

2023-02-27 08:54

來源：澎湃新聞

聽全文

·“如果一個(gè)大模型足夠有創(chuàng)造力，我們不應(yīng)該直接讓人去指揮它。如果說它是一把槍的話，你不應(yīng)該直接讓人去使用，而是應(yīng)該讓一個(gè)訓(xùn)練有素的士兵拿著這把槍，然后人去指揮這個(gè)士兵，而這個(gè)士兵有基本的善惡判斷能力?！?/u>

·“可能在漫長的開發(fā)過程中，有一些關(guān)鍵的技術(shù)得到突破，大家就充分關(guān)注它，但是其實(shí)背后是更大的困難。這些因素導(dǎo)致某些技術(shù)、概念短時(shí)間沒有成績，被公眾忘記。但是其實(shí)該努力的人還是在努力?！?/u>

“如果有一天我的數(shù)字人會(huì)聊天了，它說了不該說的話，到底是誰的責(zé)任？”

2月25日，在全球人工智能開發(fā)者先鋒大會(huì)（GAIDC）間歇，Unity中國技術(shù)總監(jiān)孫志鵬接受澎湃科技（www.nxos.com.cn）專訪，談到了AIGC（生成式人工智能）和元宇宙未來的趨勢。

孫志鵬認(rèn)為，ChatGPT作為一種“能力”釋放給公眾可能帶來一定問題，創(chuàng)作平臺有審核責(zé)任，但是怎么審，“我覺得其實(shí)也可以用一些技術(shù)手段實(shí)現(xiàn)?！?/p>

Unity中國是為開發(fā)者提供3D引擎的平臺，本身也是元宇宙底層技術(shù)的開發(fā)者。孫志鵬表示，創(chuàng)造元宇宙中的內(nèi)容，原先是專業(yè)開發(fā)者通過專業(yè)工具進(jìn)行的，而AIGC賦予了每個(gè)人創(chuàng)造內(nèi)容的能力。

Unity中國參展2023全球人工智能開發(fā)者先鋒大會(huì)。

槍只能放到訓(xùn)練有素的士兵手中

澎湃科技： 2022年DALL-E、ChatGPT等人工智能工具讓AIGC變成了科技界最火的一個(gè)名詞，國內(nèi)也有很多企業(yè)追趕浪潮，你認(rèn)為在2023年這一領(lǐng)域的發(fā)展趨勢是什么？

孫志鵬：兩個(gè)方面，一是人工智能模型會(huì)越來越大，二是人工智能在多模態(tài)方向上（多種模態(tài)的信息，包括文字、圖片、視頻等）的工作還將繼續(xù)。上述兩個(gè)方向最近就是在大模型的指揮下做了一些很“出圈”的事，引起了巨大的反響。模型越做越大的同時(shí)，模型所能生成的模態(tài)也會(huì)越變越多?，F(xiàn)在我們看到最多的還是文字、圖片這兩個(gè)模態(tài)，未來3D內(nèi)容也會(huì)加入進(jìn)來，包括3D數(shù)字人。

目前的語言大模型本身需要“掌握”兩部分知識，語言的知識和有關(guān)世界認(rèn)知的知識。有關(guān)語言的知識只需要很少的數(shù)據(jù)量就可以訓(xùn)練出來，而有關(guān)世界認(rèn)知的知識，則可以用來驅(qū)動(dòng)多模態(tài)領(lǐng)域的研究。比如描述我在上海這件事，我可以用文字，也可以用圖片、視頻。但無論何種模態(tài)，表達(dá)的都是我與上海的關(guān)系。也就是說知識的關(guān)系是跨模態(tài)的，知識的表達(dá)方式，可以按照各模態(tài)的需要來分配，就如同多模態(tài)工作中發(fā)現(xiàn)的經(jīng)驗(yàn)一樣，BeiT v3模型結(jié)構(gòu)也反映了這一結(jié)論。大語言模型，通過語言模態(tài)越做越大，再加入更多的模態(tài)，將來就可以驅(qū)動(dòng)3D內(nèi)容、腳本的生產(chǎn)。不僅僅是語言模型的開發(fā)者，未來會(huì)有更多領(lǐng)域的人加入，而不僅僅是語言模型的開發(fā)者，這是2023年的趨勢。

澎湃科技：Unity同樣是一個(gè)內(nèi)容平臺，目前各平臺對于UGC（用戶生成內(nèi)容）的監(jiān)管已經(jīng)“分身乏術(shù)”，你認(rèn)為在AIGC的時(shí)代，人工智能生成內(nèi)容對平臺會(huì)有什么樣的影響？

孫志鵬：一個(gè)大模型能夠產(chǎn)生的模態(tài)越多，對人的影響可能就越大。只能產(chǎn)生文字的時(shí)期，或許傳播效率還有限。但未來必然可以產(chǎn)生各種模態(tài)的內(nèi)容，圖片、視頻、3D內(nèi)容等等，這帶來的影響力、傳播力將遠(yuǎn)超文字。所以監(jiān)管是必要的，但同時(shí)人工監(jiān)管的成本確實(shí)太高了。

我們目前在進(jìn)行數(shù)字人的生產(chǎn)流程，就會(huì)考慮到，如果有一天我的數(shù)字人會(huì)聊天了，它說了不該說的話，到底是誰的責(zé)任？所以ChatGPT作為一種“能力”釋放給公眾可能是有問題的。創(chuàng)作平臺有審核責(zé)任，但是怎么審，我覺得其實(shí)也可以用一些技術(shù)手段實(shí)現(xiàn)。

比如ChatGPT為什么能夠善解人意，按照InstructGPT（ChatGPT的前身，基于GPT-3）的描述，就是因?yàn)槭紫扔袛?shù)萬的人工數(shù)據(jù)（提問和回答數(shù)據(jù)）加入訓(xùn)練，然后再用大量的人工對結(jié)果進(jìn)行篩選，最后再由一個(gè)reward model強(qiáng)化學(xué)習(xí)，才使得ChatGPT除了具備GPT-3.5（相較于GPT-3加入了github上大量代碼的“語料”）帶來的語言能力，還融入了人工智能的強(qiáng)化訓(xùn)練，加入了人的偏好對AI的訓(xùn)練。無數(shù)人對ChatGPT提問，可能有數(shù)萬次，在這過程中會(huì)不斷強(qiáng)化ChatGPT的能力，而這些人的意志也就會(huì)帶入AI。

所以，開發(fā)、訓(xùn)練AI的人是重點(diǎn)，如果訓(xùn)練的人加入更多以表達(dá)善意為主的數(shù)據(jù)，那么這些人善意的偏好就會(huì)加入大模型里。如果提問的源頭是一個(gè)善良的目的，大概率會(huì)得到一個(gè)善良的結(jié)果。

最近還有一個(gè)趨勢是，問大模型的問題，不由人直接提問，而是人類把訴求告訴另外一個(gè)語言模型，這個(gè)語言模型先理解你的訴求，然后去生成一個(gè)“不會(huì)有問題的問題”。一個(gè)“不會(huì)有問題的問題”，就會(huì)得到一個(gè)“不會(huì)有問題的回答”。如果一個(gè)大模型足夠有創(chuàng)造力，我們不應(yīng)該直接讓人去指揮它。如果說它是一把槍的話，你不應(yīng)該直接讓人去使用，而是應(yīng)該讓一個(gè)訓(xùn)練有素的士兵拿著這把槍，然后人去指揮這個(gè)士兵，而這個(gè)士兵有基本的善惡判斷能力。比如杭州有人用ChatGPT編寫了車輛不限行的文件。那么人工智能一開始就需要判斷，作為一個(gè)合法公民，編寫不存在的政府文件，這種訴求是否合理。

AIGC將為元宇宙帶來生產(chǎn)流程的進(jìn)化

澎湃科技：AIGC的火爆可能一定程度上讓元宇宙的聲量小了一些，你怎么看待二者間的關(guān)系？

孫志鵬：有起有伏很正常，剛開始做出來一點(diǎn)成果的時(shí)候，大家可能會(huì)過度樂觀，覺得ChatGPT如此強(qiáng)大，我們已經(jīng)迎來了通用人工智能的曙光，但其實(shí)離得還遠(yuǎn)。比如現(xiàn)在人工智能的推理能力其實(shí)是很差的。

但這些樂觀實(shí)際上涵蓋了我們對技術(shù)的期待，描述了一個(gè)更好的未來，給了開發(fā)者一個(gè)目標(biāo)。而怎么去實(shí)現(xiàn)這個(gè)目標(biāo)是手段的問題，AIGC可能就是這個(gè)手段，兩個(gè)概念此起彼伏。

可能在漫長的開發(fā)過程中，有一些關(guān)鍵的技術(shù)得到突破，大家就充分關(guān)注它，但是其實(shí)背后是更大的困難。這些因素導(dǎo)致某些技術(shù)、概念短時(shí)間沒有成績，被公眾忘記。但是其實(shí)該努力的人還是在努力。雖然大家可能沒有太多耐心，又過度樂觀，但一個(gè)行業(yè)的人，堅(jiān)持做自己覺得對的事情就可以了。

而AIGC為元宇宙帶來的是生產(chǎn)流程的進(jìn)化。元宇宙描述的形態(tài)太過龐大，以至于傳統(tǒng)生產(chǎn)流程不適應(yīng)。AIGC可以賦能創(chuàng)作者。人工智能本質(zhì)上就是在賦予人更大的算力支配，進(jìn)而激發(fā)人的創(chuàng)造性。以前專業(yè)開發(fā)者需要耗時(shí)耗力做到的事情，現(xiàn)在很容易就能實(shí)現(xiàn)。你只要說話就可以完成畫圖、建模。而干這件事本身就使用了更多算力，消耗了更多的資源。同時(shí)，隨著AIGC越來越多地使用，算力也會(huì)變得更加便宜，元宇宙的開發(fā)也會(huì)從中受益。

澎湃科技：作為元宇宙核心技術(shù)的引擎技術(shù)在未來會(huì)有什么發(fā)展？元宇宙產(chǎn)業(yè)在2023年有什么樣的機(jī)遇和挑戰(zhàn)？

孫志鵬：有關(guān)元宇宙，大家一直在討論生產(chǎn)流程。這在過去實(shí)際上就是專業(yè)引擎的工作。比如Unity引擎本身怎么開發(fā)，以前是一個(gè)小眾的事，畢竟做工具的人是少數(shù)，創(chuàng)作生態(tài)里更多的是用工具做內(nèi)容的人。元宇宙中可以誕生更高效的生產(chǎn)數(shù)字內(nèi)容的流程。

比如一個(gè)平臺，在自己的元宇宙里定義一個(gè)新的內(nèi)容生產(chǎn)方式，生產(chǎn)這個(gè)宇宙里的內(nèi)容，在這個(gè)宇宙里消費(fèi)。Unity這類引擎要做的就是適配。比如一個(gè)公司購買了Unity Pro，只用到20%的功能，卻花費(fèi)了100%的錢，多余的功能對個(gè)人而言實(shí)際上可能會(huì)干擾其生產(chǎn)效率。所以引擎在未來通過解耦合、模塊化的能力，為元宇宙提供特定場景下的生產(chǎn)流程，讓其在特定領(lǐng)域足夠高效，才是發(fā)展的重點(diǎn)。此外，引擎升級的同時(shí)，該引擎支撐的內(nèi)容也會(huì)更精美。

通俗來說，引擎應(yīng)該是一整套樂高積木，用戶可以根據(jù)自己的想法制作工具、場景，同時(shí)積木更精美、質(zhì)量更好，那么做出來的東西也會(huì)變好。如果我們把引擎的功能合理拆散，元宇宙開發(fā)者通過與自己的訴求有機(jī)結(jié)合，就會(huì)創(chuàng)造更高效的生產(chǎn)流程。