下載客戶端

登錄

對話李志飛：理解Sora，復(fù)現(xiàn)Sora

2024-03-11 18:07

來源：澎湃新聞·澎湃號·湃客

聽全文

原創(chuàng) 甲小姐劉楊楠甲子光年

我們越來越接近大一統(tǒng)，接近智能的本質(zhì)。

作者｜甲小姐劉楊楠

經(jīng)過1個月的發(fā)酵，國內(nèi)AI從業(yè)者們對Sora的態(tài)度正發(fā)生著微妙的轉(zhuǎn)變，從最初的震撼，到被未知裹挾的好奇、質(zhì)疑，再到最近開始隱約出現(xiàn)“復(fù)現(xiàn)Sora”的潮流。

1份技術(shù)報(bào)告，32篇引用論文，一些畫面堪比電影鏡頭的demo和1個故作高深的“世界模擬器”概念就是OpenAI給出的全部，沒有技術(shù)論文，也沒有可公開體驗(yàn)的產(chǎn)品入口。

OpenAI給全世界出了一系列謎題——Sora的技術(shù)架構(gòu)到底是什么？和ChatGPT有什么聯(lián)系？訓(xùn)練Sora是否會燒掉更多資金和算力？開源有機(jī)會反超Sora嗎？OpenAI口中的“世界模擬器”到底是什么......？

本次對話的主人公李志飛，便是沖在一線破解謎題的人。

李志飛，出門問問創(chuàng)始人、CEO，美國約翰霍普金斯大學(xué)計(jì)算機(jī)系博士，前Google總部科學(xué)家，自然語言處理及人工智能專家，創(chuàng)業(yè)10年主導(dǎo)開發(fā)過語音助手、智能硬件，以及多個AIGC產(chǎn)品，如魔音工坊、奇妙元。

2022年底，感受到ChatGPT帶來的心智沖擊后，李志飛直接飛到美國，在距離OpenAI最近的地方尋找答案；但今年，李志飛沒跟任何人聊，在他看來，“OpenAI很狡猾，他們試圖隱藏一些東西”，而目前國內(nèi)外社交媒體上對Sora激情評論的人基本“都是瞎猜”。

“過多的猜測只會浪費(fèi)時(shí)間，既然找不到答案，還不如自己研究。”近一個月，李志飛一門心思研究Sora的原理，他幾乎看遍了OpenAI列出的32篇論文?，F(xiàn)在，他已經(jīng)拼出了一幅完整的Sora技術(shù)架構(gòu)圖。

一年前，幾乎是相同的時(shí)間，；一年后，甲小姐再次對話李志飛，主題轉(zhuǎn)變?yōu)椤袄斫釹ora，復(fù)現(xiàn)Sora”。

1.談感受：“理解是沒有終點(diǎn)的，我們只能無限逼近真相”

“我不覺得他們能有比我更深的認(rèn)知，都是瞎猜。既然找不到真正的答案，我還不如自己研究?！?/p>

甲小姐：到今天為止，你對Sora理解到什么程度？

李志飛：我基本讀完了所有Sora相關(guān)的論文，對Sora的理解更深了。但理解Sora不是封閉的數(shù)學(xué)題，現(xiàn)在我們對Sora的理解可能邏輯起點(diǎn)都是錯的，是否在某個地方做了隱性假設(shè)都不知道。理解是沒有終點(diǎn)的，我們只能無限逼近真相。

甲小姐：Sora跟ChatGPT相比，誰給你的震撼更大？

李志飛：從原理突破來說，肯定是ChatGPT，或者說是它背后的GPT。今天，很多人都看過GPT許多相關(guān)論文，但還是很難理解大語言模型為啥有思維鏈（CoT）以及上下文學(xué)習(xí)（ICL）的能力，這是心智上的沖擊。而Sora真正的沖擊不在原理突破，因?yàn)镃hatGPT出現(xiàn)后我們都能預(yù)見到AI生成高質(zhì)量視頻是必然的，只是沒料到會這么快。Sora的沖擊是它生成視頻的時(shí)長、高質(zhì)量以及一致性。

甲小姐：Sora在業(yè)內(nèi)引起的反響跟ChatGPT相比，哪個勢能更大？

李志飛：ChatGPT在2022年11月底發(fā)布，國內(nèi)23年1月底才開始大規(guī)模討論，2月左右出現(xiàn)創(chuàng)業(yè)潮，大概有三四個月的時(shí)間大家都非常興奮，覺都睡不著，Sora肯定沒到這種程度。一個重要原因是ChatGPT能直接體驗(yàn)。Sora的下一次高峰可能是OpenAI開放體驗(yàn)的時(shí)候，現(xiàn)在降火速度非?？?。

甲小姐：有人把Sora類比為GPT-3.5時(shí)刻，你認(rèn)同嗎？

李志飛：這完全不對，如果一定要類比，Sora應(yīng)該是GPT-2到GPT-3的過渡。因?yàn)镚PT-2跟GPT-3原理上沒什么區(qū)別，但GPT-3證明了Scaling law（規(guī)模法則）在文本數(shù)據(jù)上work，Sora進(jìn)一步證明了Transformer和Scaling law在視頻上同樣能work。

甲小姐：OpenAI沒有把Sora開放給大眾使用，有沒有一種可能是，現(xiàn)在的demo是他們精心篩選的結(jié)果，Sora的真實(shí)能力遠(yuǎn)不及此？

李志飛：有可能。除非Meta的LLaMA-3也立馬搞一個開源模型，能復(fù)現(xiàn)類似Sora的效果，以此證明Transformer和Scaling law確實(shí)能在視頻生成領(lǐng)域規(guī)?；痺ork。

甲小姐：OpenAI可能會在什么時(shí)候開放Sora的使用？

李志飛：具體何時(shí)不知道，OpenAI的Sora團(tuán)隊(duì)已在最新訪談中明確表示不會很快發(fā)布。如果Sora要商業(yè)可用，除了解決渲染速度、時(shí)間、成本等問題外，版權(quán)問題也是一個難點(diǎn)。

文本的版權(quán)已經(jīng)被搜索引擎重塑了一遍。2005-2010年，紐約時(shí)報(bào)等傳統(tǒng)媒體不斷訴訟谷歌搬運(yùn)他們的原創(chuàng)內(nèi)容。經(jīng)過十幾年的博弈，各方對文字內(nèi)容版權(quán)基本形成共識。視頻還沒有經(jīng)過這樣的洗牌，大家的版權(quán)保護(hù)意識非常強(qiáng)。Sora要真正開放使用，可能要面臨比ChatGPT更大的合規(guī)問題。

我猜測OpenAI或許已經(jīng)用了一些電影、電視劇、游戲以及YouTube的數(shù)據(jù)。如果只用社會媒體的UGC數(shù)據(jù)，Sora的生成效果可能根本達(dá)不到這個質(zhì)量。

當(dāng)然，Sora現(xiàn)在只是學(xué)術(shù)研究的demo，無法證明OpenAI到底有沒有侵權(quán)。這也是OpenAI相對于谷歌的優(yōu)勢——他們在合規(guī)方面可以更加“野蠻”。

甲小姐：對于國內(nèi)公司而言，ChatGPT和Sora哪個追趕難度更大？

李志飛：去年和今年情況不太一樣。去年國內(nèi)對大語言模型原理的理解不到位，基礎(chǔ)設(shè)施也比較差，導(dǎo)致最初的訓(xùn)練效率很低，GPU的利用率也很低。但好處在于，ChatGPT的原理有公開論文，你只要努力看懂就行。

今天我們在基礎(chǔ)訓(xùn)練設(shè)施方面更成熟，可能只需要去年1/2甚至更少的GPU就能訓(xùn)練出同樣的模型。但不好的地方是，Sora的技術(shù)細(xì)節(jié)并未公布，比如它用的編解碼器到底是啥？60s的視頻是一次成功生成的還是多次調(diào)整prompt的結(jié)果？60s是一個token sequence還是拆成了多個15s的token sequences？這些細(xì)節(jié)決定到底能不能復(fù)現(xiàn)。

甲小姐：在你眼中，誰有可能最先做出“中國的Sora”？

李志飛：我不知道。這次我沒跟任何人聊，就是自己看論文，跟我們的工程師討論，甚至連硅谷的人都很少聊。我不覺得他們能有比我們更深的認(rèn)知，大家都是處于同一起跑線瞎猜。X上面那些人的認(rèn)知、理解跟我們比也沒有多大差別。去年ChatGPT出現(xiàn)后，我和業(yè)內(nèi)的高頻互動從結(jié)果看也對我作用不大。既然找不到真正的答案，我還不如自己研究。

甲小姐：你可以直接找OpenAI的人聊。

李志飛：我懶得找，估計(jì)也找不著，OpenAI可能也就10個人做這個項(xiàng)目，再加上保密限制估計(jì)也聊不出啥。另外，我們要去實(shí)現(xiàn)Sora，并不一定要跟它一模一樣，達(dá)到類似的效果就可以，那我肯定要有自己的一套理解去做。

甲小姐：你為什么對Sora有如此大的興趣？

李志飛：一是個人愛好，去年讀了不少多模態(tài)的論文，但大部分都是小打小鬧的demo，各說各的，沒啥讓人信服的效果，但Sora的效果讓我特別好奇到底是怎么做到的。二是我認(rèn)為出門問問過去做的AIGC產(chǎn)品的終局就是視頻生成。比如魔音工坊是為短視頻生成配音，奇妙元是生成數(shù)字人視頻。雖然這些產(chǎn)品現(xiàn)在的用戶量和商業(yè)化都不錯，但如果Sora這種端到端的技術(shù)路線成為主流，我們這些產(chǎn)品沒有跟上就不會有競爭力了，所以我們必須理解并跟上。

2.談原理：“如果我是OpenAI，就做純粹的GPT”

“GPT像人類的‘工筆畫’，一筆一筆地畫，后一筆依賴于前一筆；Diffusion很像人類的‘潑墨畫’，‘一潑即成’，之后在初稿上一遍遍細(xì)化，直到最終呈現(xiàn)出一幅高清圖像?！?/p>

甲小姐：OpenAI發(fā)布的Sora技術(shù)報(bào)告，你最關(guān)注哪個部分？

李志飛：最讓我困惑的是“時(shí)空編碼器”，也就是OpenAI怎么把視頻數(shù)據(jù)轉(zhuǎn)成patch。

剛開始我一頭霧水，好奇每一步是怎么做的。OpenAI技術(shù)報(bào)告里也沒怎么寫，我就把編碼器、解碼器相關(guān)論文都看了一遍，發(fā)現(xiàn)其實(shí)沒那么復(fù)雜。

這里的patch就是大家常說的token，數(shù)據(jù)處理的原子性單位。就像人學(xué)知識一樣，在一片汪洋大海中，你可能沒有頭緒，不知道怎么學(xué)，但把它分成塊，每一塊單獨(dú)突破，肯定簡單很多。

甲小姐：概括一下patch的來龍去脈？

李志飛：2021年6月，谷歌推出ViT（Vision Transformer），即用Transformer來做一個圖片分類模型，這篇論文最早提出“patch”的概念，每一個patch可以當(dāng)作一個token，用Transformer把圖片轉(zhuǎn)換成tokens。以前做圖片分類不是基于token，都是用CNN提取圖片feature（特征）。

圖片來源：ViT論文

2021年11月，谷歌推出ViViT（Video Vision Transformer，視頻ViT）。把ViT從圖片拓展到視頻，把視頻也轉(zhuǎn)換成了tokens。視頻增加了時(shí)間的維度，這篇論文提出，要從時(shí)間和空間的維度同時(shí)切塊，即時(shí)空patch。

圖片來源：ViViT論文

2023年7月，谷歌提出NaViT（Native Resolution ViT），可以處理不同分辨率、縱橫比的視頻數(shù)據(jù)。

2023年10月，谷歌又推出MAGViT V2（Masked Generative Video Transformer），解決圖片和視頻聯(lián)合訓(xùn)練的問題。

強(qiáng)調(diào)圖片和視頻聯(lián)合訓(xùn)練的原因有二：第一，視頻跟文本對齊的數(shù)據(jù)很少，但圖片跟文本對齊的數(shù)據(jù)很多。第二，圖片有很多高分辨率的數(shù)據(jù)，但視頻沒有。所以圖片跟視頻最好在同一空間、同一vocabulary（詞匯）中聯(lián)合訓(xùn)練。

OpenAI可能還大量使用了模型再生數(shù)據(jù)。Sora技術(shù)報(bào)告明確說，他們將所有的訓(xùn)練視頻與文本對齊，由專門的Dalle-3為之生成相應(yīng)的captions（說明文字）。

甲小姐：視頻數(shù)據(jù)token化后，在接下來的處理上和文本有什么本質(zhì)區(qū)別？

李志飛：照常理說，時(shí)空切片出來了，相當(dāng)于視頻數(shù)據(jù)已經(jīng)token化，如果用GPT，那一切都簡單了。但大家都猜測OpenAI沒有用GPT，而是用了DiT（Diffusion Transformer）或其變體。

類比來看，GPT的核心架構(gòu)有三大塊：編碼器（tokenizer）、解碼器（De-Tokenizer）和轉(zhuǎn)換器（Transformer）。GPT的過程可抽象為：編碼器將數(shù)據(jù)token化，通過轉(zhuǎn)換器做上下文依賴關(guān)系的建模，再由解碼器轉(zhuǎn)換為人們熟知的形式。我猜測Sora核心也是這個框架，只是轉(zhuǎn)換器換成了Diffusion。

甲小姐：到底什么是token？

李志飛：Token是模型處理數(shù)據(jù)的基本單元，有兩個方面，一是切分成塊，二是分塊后把對應(yīng)的token值量化。

很多人認(rèn)為token一定是離散的，這是很大的誤解。Token的值不一定離散，也可以是連續(xù)的。對Transformer來說也是如此，只要分塊就可以了，它既可以處理連續(xù)值也可以處理離散值的分塊。

文本模型通常使用離散表示，因?yàn)槲谋臼翘烊浑x散的（文本是由字符或詞構(gòu)成的字符串），OpenAI用的DiT不需要將token值離散化，模型學(xué)的是不同連續(xù)值之間的關(guān)系。所以他們用的編解碼器引用了VAE（Variational Autoencoder，變分自編碼器），而不是VQ-VAE（Vector Quantization，向量量化）。

Token值的離散和連續(xù)關(guān)系到模型學(xué)習(xí)的顆粒度，Tokenize都是為了找到最合適的、最能表示原始數(shù)據(jù)的學(xué)習(xí)顆粒度。假設(shè)token值的范圍是0-100，如果token量化后以1為單位，就只有101個整數(shù)值（vocabulary的大?。?，但如果token值是連續(xù)的，那這個值就有無窮種可能。

甲小姐：從思想上看，GPT和DiT的核心區(qū)別是什么？

李志飛：GPT像人類的“工筆畫”，一筆一筆地畫，后一筆依賴于前一筆；Diffusion很像人類的“潑墨畫”，“一潑即成”，之后在初稿上一遍遍細(xì)化，直到最終呈現(xiàn)出一幅高清圖像。

甲小姐：既然都可以“畫畫”，為什么不用GPT而用Diffusion？

李志飛：說實(shí)話，如果我是OpenAI，就做純粹的GPT，因?yàn)镚PT擅長捕捉各種依賴關(guān)系，包括對長視頻一致性很重要的遠(yuǎn)距離依賴關(guān)系。

我認(rèn)為GPT的成功在于next token prediction，模擬人的思考方式。我覺得GPT也能模擬擴(kuò)散的生成過程。具體來說，GPT生成一版粗糙的token sequence后，把它放在上下文窗口中再次生成下一版更精細(xì)的token sequence，如此反復(fù)，GPT也能完成擴(kuò)散模型的“從粗到細(xì)”過程，這其實(shí)更像人類作畫的方式。

但這對模型的上下文窗口要求很高。比如MAGViT生成2.125秒、幀率為每秒8幀、分辨率為128*128的視頻需要1280個token，生成1分鐘視頻需要3萬多個token；實(shí)際場景中分辨率和幀率都會更高，生成一分鐘視頻動不動就要幾十萬的token。

以前不用GPT是因?yàn)槟Ｐ椭С痔幚淼纳舷挛拇翱诓粔蜷L，但這個問題現(xiàn)在已經(jīng)解決了。如果一切模態(tài)的數(shù)據(jù)都轉(zhuǎn)成token sequence，用Transformer學(xué)習(xí)它們之間的關(guān)系，那就很通用了。大家的注意力可以放在各種模態(tài)的Tokenizer以及數(shù)據(jù)收集上。

甲小姐：既然如此，為什么過去文生圖一般選擇用Diffusion？

李志飛：我猜測大家選擇Diffusion，一是為了降低模型每一次學(xué)習(xí)的復(fù)雜度，二是為了找到正確的模型學(xué)習(xí)顆粒度。Diffusion把整個生成過程拆分為很多版本，不斷加噪、降噪，完成從粗到細(xì)的過程，從而生成高分辨率的圖片或視頻。

加噪、降噪本質(zhì)是一種模擬人類作畫的過程。模型難以學(xué)會一次性生成最終版圖片，最好有不同清晰度的圖片數(shù)據(jù)用來訓(xùn)練模型，比如第一版用粗略的輪廓圖，第二版加入細(xì)節(jié)線條，第三版加顏色，第四版調(diào)整對比度，以此類推。但這些數(shù)據(jù)很匱乏，于是人為對一張圖片加噪，制造不同清晰度的圖片數(shù)據(jù)用于模型訓(xùn)練。降噪的過程則是把文本prompt作為條件，讓模型學(xué)習(xí)不同版本圖片之間的關(guān)系，進(jìn)而學(xué)會把模糊的圖片還原輸出最終的高清圖。

甲小姐：DiT路線會成為文生視頻領(lǐng)域的“大一統(tǒng)范式”嗎？

李志飛：之前文生視頻有不同路線，有的是U-Net，代表包括SD、Gen-2、Pika等；也有把U-Net換成Transformer的，即DiT（Diffusion Transformer），Sora就是這條路。

我認(rèn)為把U-Net換成Transformer應(yīng)該是共識。Transformer更加scalable，最終可能會遵循Scaling law；而且，大家花了大量精力和金錢優(yōu)化Transformer的工具鏈，各種論文也特別多，現(xiàn)在研究U-Net的人少了。

但是否一定要用Diffusion？我認(rèn)為不一定。我個人覺得用GPT把語言和視覺等模態(tài)統(tǒng)一處理更好。

目前還處于技術(shù)早期、沒有收斂，各種視頻相關(guān)模型的分類或講法比較混亂。我一直說OpenAI“狡猾”，他們的技術(shù)報(bào)告只是很籠統(tǒng)地引用了幾篇谷歌的文章，但沒說到底用了什么，怎么用的，以及做了哪些創(chuàng)新，感覺OpenAI在隱藏一些東西，你不知道他到底用了什么。

甲小姐：OpenAI的技術(shù)報(bào)告中強(qiáng)調(diào)了模型處理可變時(shí)長、分辨率、寬高比數(shù)據(jù)的能力，這些問題為什么重要？有多難？

李志飛：自然界能收集到的圖像數(shù)據(jù)有各種格式，比如不同分辨率，不同縱橫比、不同時(shí)長。但以前學(xué)術(shù)研究為了簡單，一般先把各種格式轉(zhuǎn)換成一個固定格式。這相當(dāng)于模型還沒開始訓(xùn)練，在數(shù)據(jù)處理環(huán)節(jié)就丟失了很多信息。

處理各種格式并不難，只是在學(xué)術(shù)界看來都是臟活累活，他們可能不愿意干。但如果要做一款面向公眾的產(chǎn)品，用戶的數(shù)據(jù)和需求一定是多格式、五花八門的，就必須解決這個問題。

甲小姐：Sora用的很多技術(shù)路徑都來自谷歌，你認(rèn)為OpenAI真正的貢獻(xiàn)是什么？

李志飛：OpenAI真正的原創(chuàng)貢獻(xiàn)是對Scaling law（規(guī)模法則）的信仰和實(shí)踐。另外，他們把產(chǎn)品目標(biāo)定義得非常好，比如說，別人都是生成幾秒視頻，他們敢于一開始把目標(biāo)定為生成一分鐘視頻。如果這個目標(biāo)實(shí)現(xiàn)很好的效果，就能對人產(chǎn)生很大的沖擊；也正因?yàn)槟繕?biāo)定義足夠清晰，所以他們能夠拆解一系列細(xì)分問題，并在文獻(xiàn)中找到答案，而不需要每一個地方都自己做研究。

3.談猜想：“視頻生成的任務(wù)復(fù)雜度不見得比語言模型更大”

“跨模態(tài)的知識遷移超級重要。如果語言模型和視頻模型能夠深度融合，最終可能會實(shí)現(xiàn)技術(shù)路線的‘大一統(tǒng)’?！?/p>

甲小姐：視頻生成的算力需求比文本更高嗎？

李志飛：我也沒有答案。但如果視頻模型一定比語言模型的算力需求還多，那我們就不用努力了，因?yàn)橐呀?jīng)沒什么意義了。我之所以努力看論文、想復(fù)現(xiàn)，是因?yàn)槲矣X得視頻不像大家說的那樣需要比文本多很多倍的算力。

甲小姐：Sora的模型規(guī)模多大？

李志飛：大家猜測Sora可能只有30億參數(shù)，我也覺得是百億級別的參數(shù)，跟語言模型差了幾個數(shù)量級。但是，這讓我們很困惑：如果要讓視頻符合物理規(guī)律，那模型得有大量的世界知識，但模型又不大，這些知識從哪來呢？

現(xiàn)在大致有兩種方法：一種是將語言模型的知識遷移到下游模態(tài)中，讓視頻繼承語言模型里海量的常識，這會大大降低對視頻數(shù)據(jù)質(zhì)量和數(shù)量的需求，也會大大降低模型學(xué)習(xí)的難度；另一種是，只拿文本跟視頻的匹配對去訓(xùn)練，這種匹配對含有的文本量很少，與幾百萬小時(shí)的視頻相對齊的文本可能只有幾百億token，跟訓(xùn)練語言模型的萬億級別文本差距比較大。

甲小姐：Sora是否是跟ChatGPT結(jié)合的模型？

李志飛：我們之前分析得出，Sora跟語言模型沒有深度融合，語言模型的世界知識沒有有效遷移過來。如果只靠文本跟視頻對齊的數(shù)據(jù)來訓(xùn)練模型，文本數(shù)量是非常少的，那么憑什么這個模型能夠很好地學(xué)到世界知識，同時(shí)生成符合世界知識的視頻？

我有個猜想：當(dāng)我們用視頻和文本聯(lián)合訓(xùn)練模型，我們就有可能用比純語言模型小很多的文本量，學(xué)出很好的世界模型。在這個前提下，視頻生成的任務(wù)復(fù)雜度不見得比語言模型更大。

我總結(jié)一下，一種方式是純文本的模型去學(xué)世界知識；另外一種是用文本跟視頻的對齊去聯(lián)合學(xué)習(xí)世界知識。雖然文本數(shù)量遠(yuǎn)小于以前的全文本數(shù)據(jù)量，但還有大量視頻tokenize后的tokens，另外視頻模型的參數(shù)可能比語言模型小，此消彼長，最后視頻模型和純語言模型的算力需求可能相當(dāng)。

甲小姐：這個猜想很有意思，有點(diǎn)像小孩子成長的過程，要么死讀書，要么一邊讀書一邊在外面實(shí)踐。

李志飛：核心是grounding（抽象概念和實(shí)際的聯(lián)結(jié)）。視頻、圖片是對文本抽象概念的一種grounding，哪怕你在文本里已經(jīng)知道物理定義，但如果你沒見過圖片或視頻，你腦海里還是沒有特別具象的理解。

甲小姐：OpenAI內(nèi)部已經(jīng)開始做知識遷移了嗎？

李志飛：我不知道，真的不知道，我再一次說OpenAI很狡猾。

我認(rèn)為現(xiàn)在視頻和文本是比較解耦的關(guān)系，GPT和Sora可能還是兩個單獨(dú)的模型，GPT生成文本的embedding（嵌入）只是作為視頻生成的一個條件，用來指導(dǎo)視頻的生成。

而Google的Gemini和RT-2反而是先把語言模型訓(xùn)練得很大，基于語言模型再加視頻、圖片和文字的對應(yīng)關(guān)系，再接著往下訓(xùn)練，這樣文本知識自然就遷移到下游的多模態(tài)任務(wù)里——這就是我一直強(qiáng)調(diào)的跨模態(tài)知識遷移。

比如，如果我們生成一只杯子掉在地板上的視頻。今天的大語言模型本身就含有玻璃會碎、水會濺出等常識。如果不繼承這些常識，視頻生成模型還需要大量類似玻璃掉地的視頻數(shù)據(jù)來訓(xùn)練。此外，語言模型還包含了對其它物理規(guī)律（比如聲光電、碰撞等）的各種描述，這些知識都可以遷移到下游其它模態(tài)模型里。

跨模態(tài)的知識遷移超級重要。如果我是OpenAI的工程師，我一定會重點(diǎn)做知識遷移。如果語言模型和視頻模型能夠深度融合，最終可能會實(shí)現(xiàn)技術(shù)路線的“大一統(tǒng)”。

4.談爭議：“大家不能對世界模擬器太認(rèn)真”

“世界模擬器往深了研究是研究物理，然后你可能會變成研究神學(xué)。”

甲小姐：Sora發(fā)布后你寫了一篇文章《為什么說Sora是世界的模擬器？》，現(xiàn)在你對世界模擬器有新思考嗎？

李志飛：當(dāng)時(shí)我還沒有系統(tǒng)性看論文，還不知道原理，現(xiàn)在我覺得大家不能對世界模擬器太認(rèn)真?，F(xiàn)在大家對世界模擬器想太多了。世界模擬器往深了研究是研究物理，然后你可能會變成研究神學(xué)。（笑）

甲小姐：工程師就是有“造物”情結(jié)。

李志飛：如果一直往下思考，你會進(jìn)入一個很難具象的討論，每個人都有自己的理解。上次有個活動在討論Sora到底是不是世界模擬器，各說各的，沒有一個具象的討論基礎(chǔ)，聽得我都快睡著了。我現(xiàn)在一門心思只想知道Sora到底是怎么做到的，以及我該怎么復(fù)現(xiàn)Sora。

甲小姐：如果一定要回答，那你覺得Sora是否學(xué)會了世界模型？

李志飛：如果你期望Sora學(xué)會了很多物理現(xiàn)象背后精準(zhǔn)的數(shù)學(xué)公式（所謂解析解），比如說F = ma，V_t = V_0 + a*t，那Sora大概率沒有學(xué)會世界模型，甚至永遠(yuǎn)都沒法靠數(shù)據(jù)驅(qū)動學(xué)會。

如果你接受Sora學(xué)會很多物理現(xiàn)象展示的輸入和輸出的近似關(guān)系（所謂數(shù)值解），而且參數(shù)的數(shù)量遠(yuǎn)超精準(zhǔn)數(shù)學(xué)公式里的參數(shù)個數(shù)，那么Sora大概率學(xué)會了世界模型，就算現(xiàn)在還沒有“學(xué)會”，很快隨著模型的scale up也能學(xué)會。

這就像ChatGPT可能學(xué)會了詞性，但它學(xué)會的詞性個數(shù)和顆粒度跟語言學(xué)家定義的可能很不一致。某種程度，我認(rèn)為ChatGPT的詞性定義可能更合理、更符合語言的規(guī)律。

甲小姐：你到底相信哪一種？

李志飛：相信第一種的“沒學(xué)會”和第二種的“學(xué)會”本質(zhì)不沖突，就看你是否抱著一種開放的心態(tài)，是否接受AI可以有跟人類不一樣的世界觀。如果你自負(fù)地認(rèn)為人類總結(jié)的物理規(guī)律就是“偉光正”，那當(dāng)我沒說。

而且，就算Sora學(xué)會了世界的數(shù)值解，也只是人類觀察到的世界，這個世界是“真”的嗎？是不是模擬出來的？那什么是“真實(shí)”世界？你看，我們進(jìn)入了討論神學(xué)的境界。（笑）

甲小姐：大家對世界模擬器的期待或許并不在于它理解所有因果關(guān)系，而是好奇沿著暴力美學(xué)的路徑，能否實(shí)現(xiàn)用AI將整個物理世界數(shù)字化，繼而演繹真實(shí)世界的可能性，這樣人類可以從中選取最優(yōu)解。例如工業(yè)界能夠降低試錯成本，科學(xué)界可以通過暴力美學(xué)發(fā)現(xiàn)未知的科學(xué)現(xiàn)象。

李志飛：我們要定義清楚什么是世界模擬。如果從人的視角看，科學(xué)、工業(yè)都是人占主導(dǎo)，自然界只是配合，只要是人工的，由于我相信AGI會大概率超越人類，所以我相信AI能模擬和預(yù)測世界。如果從上帝視角看，世界還有很多事情是自然占主導(dǎo)，人類只是配角。比如災(zāi)難、風(fēng)雨電雷以及各種未知的自然現(xiàn)象，人對這些問題無能為力，這個世界的90%，我們?nèi)祟惪赡芏紱]見過，我們憑什么去模擬它？除非上帝的規(guī)則很簡單。

甲小姐：要做世界模擬器要解決幻覺問題，60秒的視頻里面任何一幀違反了力學(xué)或者光學(xué)定律就會不真實(shí)。假設(shè)幻覺問題始終解決不了，Sora的應(yīng)用范圍是不是就被鎖在“文藝工作者”這個角色里了？

李志飛：我認(rèn)為終局不是兩極分化的?；糜X問題百分之百不能徹底解決的。聯(lián)結(jié)主義的核心就是“打碎重來”，一定會產(chǎn)生幻覺，這是它的feature，是它的基因。不像符號主義，只組合，不“打碎”，所以不會產(chǎn)生太多幻覺。

ChatGPT和Sora雖然不能生成沒有任何差錯的世界，但并不代表它不能對世界模擬做出很多貢獻(xiàn)。比如自動駕駛，我們可以用Sora生成很多以前根本搞不定的corner case，幫自動駕駛收集數(shù)據(jù)。

甲小姐：現(xiàn)在我給Sora提出同樣的問題，它給我的答案“可重現(xiàn)”嗎？

李志飛：訓(xùn)練模型的過程在采樣、加噪、降噪、預(yù)測環(huán)節(jié)都有很多隨機(jī)變量，如果要復(fù)現(xiàn)一模一樣的視頻，你只能把第一次采樣的隨機(jī)變量記下來，重現(xiàn)時(shí)不要再隨機(jī)產(chǎn)生。但重現(xiàn)本身沒有意義，模型不是這么玩的，你重現(xiàn)這個視頻的生成還不如直接copy原來的視頻。

5.談競爭：“人才密度太高對大公司反而是問題”

“OpenAI一周就搞定的事情，他們可能兩個月都搞不定?！?/p>

甲小姐：為什么很多人在谷歌沒有做出ChatGPT、Sora這樣驚艷的產(chǎn)品，到了OpenAI就能做到？

李志飛：OpenAI使用的很多技術(shù)是谷歌之前做出來的工作，但很多都是學(xué)術(shù)論文，不是完整的工程系統(tǒng)，更別說產(chǎn)品了，只是個半吊子。

我之前也很困惑，我每次都覺得谷歌應(yīng)該能跟得上，至少不會被OpenAI碾壓，但這次在視頻模型上又被OpenAI打得完全找不到牙。很多人把OpenAI的成功歸因于它有很多天才，哪有那么多天才？你看一看谷歌團(tuán)隊(duì)的簡歷，哪個比OpenAI差？

但谷歌內(nèi)部組織的復(fù)雜性和政治正確的文化，讓他們很難做出好的生成式產(chǎn)品。

寫論文或做算法是小規(guī)模協(xié)作，可能頂多10個人，大家志同道合，就能做出一個原型系統(tǒng)，對組織力要求不高。但如果要面向公眾發(fā)布一款生成式AI產(chǎn)品就非常難。生成式AI產(chǎn)品本身就有很大爭議性，比如Deepfake（人工智能深偽技術(shù)）等隱患對大眾追求的確定性有很大的沖擊。

谷歌作為公眾公司，從算法原型到產(chǎn)品上線有難以跨越的鴻溝。具體來說，Google的算法團(tuán)隊(duì)Google Research和DeepMind都沒有自己直接掌控的產(chǎn)品。如果要做新產(chǎn)品，谷歌CEO又不強(qiáng)勢，二十多萬人的公司，誰來own視頻生成這類全新產(chǎn)品就成了巨大的難題。產(chǎn)品要上線就更難了，研發(fā)、PR、市場、合規(guī)等各部門都有自己的考慮。大公司確實(shí)應(yīng)該考慮這些，但這會讓內(nèi)部消耗很大。OpenAI一周就搞定的事情，他們可能兩個月都搞不定。

甲小姐：這是否是所有公眾公司都面臨的問題？

李志飛：美國大公司都存在這些問題，谷歌尤其典型。

因?yàn)楣雀枞瞬琶芏忍撸粋€研究方向有很多算法研究員和工程師，他們也會相互搶項(xiàng)目。你看過去幾個月谷歌已經(jīng)發(fā)布了好幾個視頻相關(guān)的模型，比如Gemini、VideoPoet、Lumiere等。這會讓產(chǎn)品團(tuán)隊(duì)很困惑自己到底該用哪個模型。同一個方向，由于人才太多，他們算法團(tuán)隊(duì)可能有五六個，產(chǎn)品團(tuán)隊(duì)也有五六個，你可以算一下能產(chǎn)生多少交叉組合。

另外，工程師文化很理性，想搶到項(xiàng)目就要證明“我的模型比你好”——這本身就是一件巨復(fù)雜、巨耗時(shí)間的事情。

我聽說谷歌有團(tuán)隊(duì)去年本來做了視頻生成模型，差不多就要集成到Y(jié)ouTube，但另外一個視頻生成模型的團(tuán)隊(duì)負(fù)責(zé)人聽到消息，就去和YouTube說應(yīng)該用他們的模型。產(chǎn)品部門一方面迫于大佬的壓力，另一方面也想看看到底誰更好，就開始評估。大家都說自己好，用自己的數(shù)據(jù)、benchmark跑一通，誰也說服不了誰，最后只能請外部團(tuán)隊(duì)來評估，又要搞一堆事，幾個月又過去了。

坦白講，很多時(shí)候模型之間不會有太大差別，可能我今天比你差一點(diǎn)，我改一改，效果又跟你差不多了，就跟國內(nèi)to B企業(yè)去競標(biāo)一樣。很多最后都是靠關(guān)系或者低價(jià)取勝，而不是靠技術(shù)。To B項(xiàng)目競標(biāo)折騰下來要大幾個月，谷歌內(nèi)部產(chǎn)品可能也類似。到最后大家看產(chǎn)品上線無望，干脆離開，人才可能都被挖走了。

由于谷歌人才密度太高，我一直認(rèn)為谷歌應(yīng)該把算法團(tuán)隊(duì)拆成“開源模型、內(nèi)部產(chǎn)品模型、前沿研究模型”三大塊，各自有所側(cè)重——開源更多面向開發(fā)者，要做得更通用、更輕量級，有更多工具鏈；內(nèi)部產(chǎn)品模型團(tuán)隊(duì)則面向用戶，相對to C，主要指標(biāo)就是用戶體驗(yàn)；前沿研究團(tuán)隊(duì)可以多花精力研究新算法。在人才等資源充分情況下，分開或許反而使每個項(xiàng)目都有ownership（主人翁意識），也有清晰的方向，不會一片混沌。

6.談應(yīng)用：“模型應(yīng)用的最終形態(tài)一定是視頻生成”

“很多人老說開源‘套殼’，那都是不懂的人在瞎掰——你為什么要花大量時(shí)間、金錢和精力重新造個輪子，還不如別人的好？”

甲小姐：去年你曾說王慧文官宣的動作是想“嚇退”其他人，但今年大家好像都沒有被“嚇退”，反而對復(fù)現(xiàn)Sora都很有信心。

李志飛：作為初創(chuàng)公司，更多是從融資方面被“嚇退”。比如說做語言模型，很多人的投入可能是我們的10倍甚至50倍，我們也沒融資。一年下來，我們除了少燒幾個億外，語言模型的認(rèn)知或?qū)嵺`也不見得就比同行差。我有種感覺，受限的資源更能做出創(chuàng)新。

甲小姐：對于復(fù)現(xiàn)Sora，你已經(jīng)有信心了嗎？

李志飛：理論上是的，但真正要復(fù)現(xiàn)還需要很多細(xì)節(jié)，可能一個超參數(shù)就決定了能否生成高質(zhì)量視頻。這更多是我們工程師要干的活，他們要做各種實(shí)驗(yàn)，我只是抓住大的方向。

我給內(nèi)部團(tuán)隊(duì)打氣，說我們是少有的既懂語言模型、又有視頻應(yīng)用用戶和數(shù)據(jù)的公司，所以我們有潛力做出好的視頻模型。

但是，從公司投入上看，我們百分之百不可能像OpenAI那樣做，因?yàn)槲覀儧]法那樣燒錢，也不想那么做。就像去年2月追趕ChatGPT一樣，我跟人說復(fù)現(xiàn)ChatGPT可能有“乞丐版”搞法。后來開源的LLaMA出來后，確實(shí)成就了很多“乞丐版”的ChatGPT。

很多人老說開源“套殼”，那都是不懂的人在瞎掰——你為什么要花大量時(shí)間、金錢和精力重新造個輪子，還不如別人的好？我覺得核心是弄懂開源背后的細(xì)節(jié)，能在它基礎(chǔ)上做創(chuàng)新。

甲小姐：誰最可能做出“乞丐版”Sora？

李志飛：如果我是Meta的LLaMA開源團(tuán)隊(duì)，我必須搞。因?yàn)榧词故亲稣Z言模型，要達(dá)到所謂的AGI水平，必須要有視頻的模態(tài)。某種意義上，能解決視頻的“生成”，“理解”自然就解決了。

甲小姐：為什么生成解決了，理解就解決了？

李志飛：以語言為例，以前文本的理解是專門訓(xùn)練模型做情感分類、畫語法樹、做詞性分析，都是單獨(dú)做理解任務(wù)。但ChatGPT基于prompt的接口方式，一個生成模型把所有的理解任務(wù)都cover了。從原理上看，我相信只要你能回答出針對性的問題，就算是理解了，就像考試會出很多題目考我們對知識的理解一樣。

甲小姐：我認(rèn)可生成是證明理解最好的方式。某種意義上，我們對于“理解”的定義本來就很模糊，但“生成”清晰得多?！袄斫狻笔莾?nèi)化，“生成”是外化。

李志飛：沒錯。而且，生成是用戶能直接感受到的，更容易商業(yè)化。比如，語音識別是理解，很難商業(yè)化；但語音生成的商業(yè)化就更容易，我們的魔音工坊商業(yè)化就比較成功，因?yàn)橛脩裟芨兄健?/p>

甲小姐：你對要做的產(chǎn)品有定義了嗎？

李志飛：我還沒有考慮到視頻的產(chǎn)品形態(tài)那一層，更多是先解決技術(shù)疑問。感覺Sora現(xiàn)在還不是產(chǎn)品，它沒有應(yīng)用場景。我們只是在盡量讓我們的視頻生成模型接近Sora的效果。視頻生成有很多路徑，Sora實(shí)現(xiàn)了最徹底的端到端生成，而且很通用。

從產(chǎn)品角度來說，我們做模型的終局就是視頻生成，而且我們更關(guān)注短視頻。但以前我也下不了決心，很難想象有一天能夠端到端生成高質(zhì)量的視頻，但Sora讓我們看到了希望。以前我也看過相關(guān)論文，但沒有系統(tǒng)研究過他們之間的關(guān)系。Sora的技術(shù)報(bào)告把32篇論文串聯(lián)在一起，我只用努力把這32篇論文理解清楚就有了個大概思路。

7.談終局：“我們正在接近大一統(tǒng)，接近智能的本質(zhì)”

“從應(yīng)用角度，視頻是終局，語言不是最重要的，而且光有語言也意義不大?！?/p>

甲小姐：2024年有哪些看點(diǎn)？

李志飛：第一，大家什么時(shí)候能用上Sora；第二，誰能復(fù)現(xiàn)Sora，最好是以開源的形式；第三，谷歌能不能在視頻生成產(chǎn)品層面有不一樣的表現(xiàn)。對谷歌我現(xiàn)在比較悲觀，覺得他們可能又會發(fā)個論文，說可以生成5分鐘的長視頻，在一些榜單上比Sora表現(xiàn)得更好，但可能就是沒有一個真正能打的產(chǎn)品。

甲小姐：國內(nèi)已經(jīng)有團(tuán)隊(duì)說自己復(fù)現(xiàn)了Sora。

李志飛：這種挺沒意思的，有篇文章寫清華一個團(tuán)隊(duì)說他們做的比DiT早。首先我根本不在意DiT，難點(diǎn)根本不在于把U-Net換成Transformer，而在于怎么在工程上真正做到scale up，提升生成質(zhì)量，以及怎么從圖片拓展到視頻的時(shí)空建模。

從實(shí)驗(yàn)的角度來說， DiT的數(shù)據(jù)規(guī)模很小，國內(nèi)好像對DiT比較在意，網(wǎng)上都在說DiT，很少有人仔細(xì)分析Sora的內(nèi)部原理。我認(rèn)為DiT沒那么重要。從復(fù)現(xiàn)角度來說，它可能是最容易理解、也最容易被復(fù)現(xiàn)的部分。

甲小姐：每一位AI從業(yè)者此時(shí)可能都站在一個十字路口，下一步是去做文生視頻、具身智能、Agent還是其他……爆點(diǎn)層出不窮，哪條道路是“主路”，你有建議嗎？

李志飛：不同角度肯定有不一樣的思考。我永遠(yuǎn)都是用最簡單的“技術(shù)-產(chǎn)品-商業(yè)化”三個層面思考。我認(rèn)為從產(chǎn)品和應(yīng)用角度來看，視頻是終局，語言模型不是最重要的，或者說光有語言是遠(yuǎn)遠(yuǎn)不夠的。

甲小姐：有人認(rèn)為“語言就是一切”，LLM以文本的單模態(tài)就能實(shí)現(xiàn)AGI。

李志飛：從純技術(shù)角度我認(rèn)同語言模型的重要性，語言是認(rèn)知，圖片、視覺、動作是感知，認(rèn)知模型最難，機(jī)器學(xué)會了認(rèn)知，再學(xué)感知就容易多了。但AI很大的價(jià)值就是代替人類的繁瑣工作，而社會上絕大多數(shù)人不靠語言代表的認(rèn)知賺錢，而是靠感知。你不能說環(huán)衛(wèi)工人主要是靠認(rèn)知賺錢，認(rèn)知是這個工種的基礎(chǔ)，但能賺錢的還是“掃地”這個感知的技能。

所以，語言代表的認(rèn)知是基礎(chǔ)和起點(diǎn)，聲音、圖片、視頻、動作代表的感知才是應(yīng)用的閉環(huán)。從最終的產(chǎn)品形態(tài)來看，只有語言認(rèn)知意義不大。

對模型層來說，確實(shí)要想視頻怎么做，和語言模型有什么關(guān)系；對產(chǎn)品端來說，以前視頻生成更多基于模板，現(xiàn)在Sora實(shí)現(xiàn)端到端生成，以前的產(chǎn)品也許就會被淘汰——原來的技術(shù)路線不升級，產(chǎn)品就沒有競爭力，可能就是“死路一條”。這也是我為啥這么關(guān)心Sora的原因之一，我擔(dān)心我們現(xiàn)有產(chǎn)品會死。當(dāng)然，淘汰的過程不會太快，還有成本、版權(quán)等問題。Sora完全淘汰上一代視頻生成產(chǎn)品，可能至少還要一兩年。

甲小姐：2024年還會是OpenAI一家獨(dú)大嗎？

李志飛：我沒法直接給你答案，還得看Sora開放體驗(yàn)后，產(chǎn)品能否真正達(dá)到demo的效果。如果Sora的demo就是真正的產(chǎn)品能力，那我真的不知道谷歌什么時(shí)候能跟上，肯定比追ChatGPT更難。

甲小姐：目前你已經(jīng)拼出完整的Sora原理版圖了嗎？

李志飛：我的結(jié)論只是基于論文，其實(shí)真正理解Sora的是一線工程師，因?yàn)槲覜]有看源代碼。最終的本質(zhì)是代碼，就像要理解這個世界就得拿到上帝的源代碼。如果工程師除了看源代碼外還具備抽象思維，比如想清數(shù)據(jù)和算法代碼之間的關(guān)系，他們就是最理解Sora原理的人。但很多一線工程師對抽象問題沒興趣，更多是拿著別人的東西改代碼，不愿真正理解背后的思想。

甲小姐：OpenAI內(nèi)部做AGI也會有團(tuán)隊(duì)分工，有點(diǎn)像盲人摸象，每人做一塊，很難有人真正上升維度在抽象意義層面思考全局。

李志飛：以前這個人是Ilya（Ilya Sutskever，OpenAI 聯(lián)合創(chuàng)始人兼首席科學(xué)家），現(xiàn)在他可能被邊緣化了。

甲小姐：現(xiàn)在AGI真正的源代碼或許還分散在各位一線工程師的腦子里？如果有一位產(chǎn)品經(jīng)理從上帝視角抽象出整個原理版圖，現(xiàn)在我們對AI的理解或許會更深刻。

李志飛：很多時(shí)候工程師沒精力思考抽象問題，他們忙于調(diào)參數(shù)搞數(shù)據(jù)。但你要相信，和10年前相比，我們已經(jīng)越來越接近智能的真相了。以前視覺、圖片、聲音、語言，都是完全不同工種的人通過不同方式在做，現(xiàn)在我們越來越接近大一統(tǒng)，接近智能的本質(zhì)。

原標(biāo)題：《甲小姐對話李志飛：理解Sora，復(fù)現(xiàn)Sora｜甲子光年》

閱讀原文

特別聲明

本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#李志飛