下載客戶(hù)端

登錄

CVPR 2024現(xiàn)場(chǎng)觀察：隨處可見(jiàn)的華人面孔和最熱的三大研究領(lǐng)域

2024-06-20 17:18

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

聽(tīng)全文

原創(chuàng) 蘇霍伊甲子光年

在涼爽的西雅圖，屋子太小，CVPR太火。

作者｜蘇霍伊

編輯｜王博

發(fā)自美國(guó)西雅圖

美國(guó)當(dāng)?shù)貢r(shí)間6月19日，2024年IEEE國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議（CVPR）的最佳論文大獎(jiǎng)揭曉。

作為計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的頂級(jí)會(huì)議，每一屆的CVPR的最佳論文都會(huì)受到廣泛關(guān)注。今年共有4篇論文獲獎(jiǎng)，其中2篇最佳論文，2篇最佳學(xué)生論文。

其中，最佳論文是：

《Generative Image Dynamics（生成圖像動(dòng)力學(xué)）》，由谷歌研究院發(fā)布；

《Rich Human Feedback for Text-to-Image Generation（為文本到圖像生成提供豐富的人類(lèi)反饋）》，由加州大學(xué)圣地亞哥分校、谷歌研究院、南加州大學(xué)、劍橋大學(xué)及布蘭迪斯大學(xué)合作發(fā)布。

最佳學(xué)生論文是：

《Mip-Splatting: Alias-free 3D Gaussian Splatting（Mip-Splatting：無(wú)混疊的3D高斯噴濺）》，由德國(guó)圖賓根大學(xué)、圖賓根人工智能中心、上?？萍即髮W(xué)及捷克理工大學(xué)合作發(fā)布。

《BioCLlP: A Vision Foundation Model for the Tree of Life（BioCLlP：生命之樹(shù)的視覺(jué)基礎(chǔ)模型）》，由美國(guó)俄亥俄州立大學(xué)、微軟研究院、加州大學(xué)歐文分校、倫斯勒理工學(xué)院共同發(fā)布。

CVPR火熱的現(xiàn)場(chǎng)與西雅圖涼爽的天氣形成了鮮明對(duì)比，現(xiàn)場(chǎng)幾乎所有活動(dòng)都要排隊(duì)。在6月17日到18日的活動(dòng)中，不少場(chǎng)次座位滿(mǎn)了，地板上也很快就坐滿(mǎn)了人，西雅圖會(huì)議中心的空地也有不少人席地而坐。

CVPR 2024現(xiàn)場(chǎng)，「甲子光年」拍攝

「甲子光年」從大會(huì)主辦方了解到，本屆CVPR共有來(lái)自76個(gè)國(guó)家和地區(qū)的超過(guò)12000人參加了線(xiàn)下會(huì)議，是CVPR歷史上與會(huì)人數(shù)最多、規(guī)模最大的一屆。其中，來(lái)自中國(guó)的參會(huì)者是美國(guó)之外最多的，共有1730人，包括中國(guó)內(nèi)地1511人、中國(guó)香港134人、中國(guó)澳門(mén)2人、中國(guó)臺(tái)灣83人。

今年CVPR共收到11532篇論文投稿，相比2023年的9155篇增加了25%，論文數(shù)量達(dá)到了歷史新高，錄取率卻從去年的25.8%小幅下降到了23.6%，僅2719篇被接收，競(jìng)爭(zhēng)愈發(fā)激烈。

來(lái)自美國(guó)高校的Mark對(duì)「甲子光年」表示，本屆盲審階段獲得三位審稿人一致滿(mǎn)分意見(jiàn)（5/5/5）的論文“不在少數(shù)”，他的論文也是其中之一。“CVPR的審稿要求，所有的審稿只看質(zhì)量不用接收率來(lái)衡量，所以滿(mǎn)分多了并不是審查要求放低了，而是論文質(zhì)量提高了。”Mark也是本屆最佳學(xué)生論文的亞軍獲得者。

“合作”仍是學(xué)術(shù)研究的關(guān)鍵詞。學(xué)術(shù)界貢獻(xiàn)了39.4%的論文，而產(chǎn)業(yè)界與學(xué)術(shù)界合作成果則貢獻(xiàn)了27.6%的論文。在產(chǎn)業(yè)界中，谷歌是最大的貢獻(xiàn)者，提交了52篇論文，往后是騰訊和Meta，各貢獻(xiàn)了35篇論文。

同時(shí)論文作者也增加了不少，參與撰寫(xiě)被接受論文的作者人數(shù)從去年的8457人增加到超過(guò)10000人。其中只有大約三分之一的作者在去年有論文被接受，許多新面孔加入了這場(chǎng)“學(xué)術(shù)競(jìng)賽”。

高亮論文（Highlights）和口頭（Oral）報(bào)告環(huán)節(jié)也非常引人注目，分別有324篇和90篇論文獲選進(jìn)行展示，占總提交論文的2.81%和0.78%，入選比例不高，但每一篇都代表了CV領(lǐng)域的頂尖水平。

CVPR 2024論文主題分布，來(lái)源：CVPR

CVPR 2024論文數(shù)據(jù)展示了計(jì)算機(jī)視覺(jué)領(lǐng)域的全球趨勢(shì)和新動(dòng)向。研究最多的主題有：圖像和視頻合成與生成、三維視覺(jué)、人體行為識(shí)別、視覺(jué)、語(yǔ)言與語(yǔ)言推理、底層視覺(jué)、識(shí)別、遷移學(xué)習(xí)與多模態(tài)學(xué)習(xí)。特別是圖像和視頻合成與生成，這一研究主題在會(huì)議中共有329篇相關(guān)論文，是絕對(duì)的研究熱點(diǎn)。緊隨其后的是三維視覺(jué)和人體行為識(shí)別，分別有276篇和202篇論文。

根據(jù)「甲子光年」在現(xiàn)場(chǎng)的觀察和探訪(fǎng)，本屆CVPR的熱門(mén)研究領(lǐng)域主要有三個(gè)：

2D&3D生成（2D&3D generation）；

具身智能（Embodied Artificial Intelligence）；

視覺(jué)基礎(chǔ)模型（Vision Foundation Models）。

1.最佳論文：谷歌研究院成最大贏家

相信大家對(duì)上一屆CVPR的最佳論文還有印象，由上海人工智能實(shí)驗(yàn)室、武漢大學(xué)及商湯科技聯(lián)合完成的《Planning-oriented Autonomous Driving（以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛）》，這也是近十年來(lái)計(jì)算機(jī)視覺(jué)三大頂級(jí)會(huì)議中（CVPR、ICCV、ECCV），第一篇以中國(guó)學(xué)術(shù)機(jī)構(gòu)作為第一單位的最佳論文。另外，來(lái)自西北工業(yè)大學(xué)的團(tuán)隊(duì)也獲得了CVPR 2023的最佳學(xué)生論文的榮譽(yù)。

盡管本屆CVPR接收的來(lái)自中國(guó)的論文不少，但是最終只有上?？萍即髮W(xué)的團(tuán)隊(duì)參與的論文獲得了本屆最佳學(xué)生論文。前兩屆獲得最佳論文（最佳學(xué)生論文）提名的谷歌則是打了一個(gè)翻身仗，CVPR 2024兩篇最佳論文都來(lái)自谷歌研究院，一作都是華人。

最佳論文《Generative Image Dynamics》頒獎(jiǎng)現(xiàn)場(chǎng)，圖片來(lái)源：「甲子光年」拍攝

第一篇最佳論文是來(lái)自谷歌研究院的《Generative Image Dynamics》，作者為Zhengqi Li、 Richard Tucker、Noah Snavely和Aleksander Holynski。

論文本質(zhì)上研究了一類(lèi)視頻生成的子類(lèi)問(wèn)題，植物火苗等空氣動(dòng)態(tài)搖曳運(yùn)動(dòng)視頻生成，它代表了真實(shí)物理世界中的空氣運(yùn)動(dòng)，而這種運(yùn)動(dòng)是十分難以模擬的。

方法框架是采用兩階段的級(jí)聯(lián)范式，第一從靜態(tài)圖片當(dāng)中運(yùn)動(dòng)軌跡，第二以運(yùn)動(dòng)軌跡和靜態(tài)圖片為先驗(yàn)，生成動(dòng)態(tài)視頻。文章發(fā)現(xiàn)頻譜體積這一特征可以作為一個(gè)很好的先驗(yàn)，控制靜態(tài)圖片的搖曳運(yùn)動(dòng)。值得注意的是，這樣頻譜體積也能從簡(jiǎn)單的運(yùn)動(dòng)，比如鼠標(biāo)移動(dòng)中重建恢復(fù)出來(lái)。

所以這項(xiàng)研究在虛擬世界人機(jī)交互，真實(shí)世界模擬的中有非常大的潛力和范式作用?，F(xiàn)在很少用文章講底層的信號(hào)處理知識(shí)和high level的任務(wù)，如圖像生成聯(lián)系起來(lái)。這篇文章回顧傳統(tǒng)的信號(hào)處理算法，能夠幫研究者做出具有差異化的實(shí)質(zhì)性工作。

最佳論文《Rich Human Feedback for Text-to-Image Generation》頒獎(jiǎng)現(xiàn)場(chǎng)，圖片來(lái)源：「甲子光年」拍攝

第二篇最佳論文由加州大學(xué)圣地亞哥分校、谷歌研究院、南加州大學(xué)、劍橋大學(xué)及布蘭迪斯大學(xué)共同發(fā)表的《Rich Human Feedback for Text-to-Image Generation》斬獲，作者有Youwei Liang、Junfeng He、Gang Li、Peizhao Li等人。

他們提出的方法自動(dòng)化模擬了人類(lèi)的反饋過(guò)程。

許多生成的圖像仍面臨著不夠真實(shí)、與文字描述不匹配以及審美質(zhì)量不高等問(wèn)題。該研究通過(guò)選用高質(zhì)量的訓(xùn)練數(shù)據(jù)對(duì)生成模型進(jìn)行微調(diào)，或者通過(guò)使用帶預(yù)測(cè)熱圖的掩模來(lái)修正這些問(wèn)題區(qū)域，從而改善了圖像的生成質(zhì)量。值得一提的是，這些改進(jìn)措施不僅適用于收集人類(lèi)反饋數(shù)據(jù)的圖像，也能擴(kuò)展到其他模型（如Muse模型）中。

人類(lèi)反饋的概念最初由OpenAI在GPT模型中提出，目的是通過(guò)人類(lèi)標(biāo)注來(lái)指導(dǎo)并改正模型的不足。這篇論文將人類(lèi)反饋的方法引入到圖像生成領(lǐng)域，不僅如此，研究人員還創(chuàng)建了一個(gè)包含各種錯(cuò)誤（如不匹配的文本、偽影區(qū)域、語(yǔ)義錯(cuò)誤匹配和主觀評(píng)分）的數(shù)據(jù)集。同時(shí)，他們也嘗試使用一個(gè)多模態(tài)判別模型來(lái)模擬人類(lèi)反饋的自動(dòng)化過(guò)程。

實(shí)驗(yàn)結(jié)果表示自動(dòng)化的標(biāo)注模型在一定程度上能夠模仿人類(lèi)的反饋，顯示出與人類(lèi)標(biāo)注的一致性。但值得深入探討的是，這種自動(dòng)化評(píng)分模型是否能真正替代人類(lèi)的評(píng)價(jià)。因?yàn)槿祟?lèi)反饋通常來(lái)源于具有不同背景的多樣人群，能夠提供更全面的評(píng)判。相比之下，自動(dòng)化評(píng)分可能面臨評(píng)判過(guò)于單一和模型過(guò)擬合的問(wèn)題，尤其是這些模型通常是在特定的生成模型和圖文對(duì)上進(jìn)行訓(xùn)練的。

可以說(shuō)，自動(dòng)化標(biāo)注模型在模擬人類(lèi)反饋方面取得了一定成果，但其泛化能力和一致性仍需進(jìn)一步驗(yàn)證。

最佳學(xué)生論文《Mip-Splatting: Alias-free 3D Gaussian Splatting》頒獎(jiǎng)現(xiàn)場(chǎng)，來(lái)源：CVPR

再來(lái)看最佳學(xué)生論文。

第一篇最佳學(xué)生論文頒發(fā)給了《Mip-Splatting: Alias-free 3D Gaussian Splatting》，由德國(guó)圖賓根大學(xué)、圖賓根人工智能中心、上海科技大學(xué)及捷克理工大學(xué)共同發(fā)表。作者為Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler和Andreas Geiger，其中論文的一作、二作都是上?？萍即髮W(xué)的在讀或畢業(yè)生。

這篇論文重要關(guān)注3D高斯噴濺（Gaussian splash）在三維重建領(lǐng)域取得了高質(zhì)量的效果，尤其是其渲染速度相比于之前的Nerf（神經(jīng)輻射場(chǎng)）的方法有了極大的提升，但這一方法在改變采樣率時(shí)，例如在改變焦距或者相機(jī)距離時(shí)會(huì)產(chǎn)生偽影，問(wèn)題的根源可以歸因于缺乏3D頻率的約束和使用2D膨脹濾波器。

去年7月，法國(guó)科研機(jī)構(gòu)Inria和德國(guó)馬普所聯(lián)合發(fā)表了一篇論文，詳細(xì)介紹3D高斯噴濺技術(shù)，這項(xiàng)技術(shù)使得大規(guī)模生成精細(xì)化3D模型成為可能。論文一經(jīng)發(fā)出，便在計(jì)算機(jī)視覺(jué)領(lǐng)域引起極高關(guān)注。AI創(chuàng)企知天下的創(chuàng)始人兼CEO宋寬此前對(duì)「甲子光年」表示：“這項(xiàng)技術(shù)具有劃時(shí)代意義，高斯噴濺將使三維點(diǎn)云算法從‘小眾’變成‘大殺器’?！?/p>

「甲子光年」注意到，這次Mip-Splatting引入了一個(gè)3D平滑濾波器，該濾波器根據(jù)輸入視圖引起的最大采樣頻率來(lái)約束高斯基元，從而消除高頻偽影。

高斯偽影是3D生成中難以解決的問(wèn)題。作者們引入了一個(gè)2D mip濾波器代替2D膨脹，可有效緩解混疊和膨脹問(wèn)題，和高斯偽影問(wèn)題。

值得一提的是，文章作者之一Binbin Huang（黃彬彬）還另提出2D Gaussian的高質(zhì)量文章，可通過(guò)將3D基元轉(zhuǎn)換為2D基元，有效地解決3D高斯表面幾何粗糙的問(wèn)題。

最佳學(xué)生論文《BioCLlP: A Vision Foundation Model for the Tree of Life》頒獎(jiǎng)現(xiàn)場(chǎng)，來(lái)源：「甲子光年」拍攝

第二篇最佳學(xué)生論文由美國(guó)俄亥俄州立大學(xué)、微軟研究院、加州大學(xué)歐文分校、倫斯勒理工學(xué)院共同發(fā)布的《BioCLlP: A Vision Foundation Model for the Tree of Life》獲得，作者有Samuel Stevens、Jiaman (Lisa) Wu、Matthew J Thompson等。

近年來(lái)，隨著無(wú)人機(jī)到個(gè)人手機(jī)等多種攝像設(shè)備的普及，自然界圖像的收集已變得異常豐富。這些圖像不僅僅是生物信息的豐富源泉，更成為了科學(xué)研究和保護(hù)工作中不可或缺的重要工具。然而，現(xiàn)有的計(jì)算方法和工具，尤其是計(jì)算機(jī)視覺(jué)技術(shù)，大多數(shù)是為特定任務(wù)量身定制的，難以適應(yīng)新的問(wèn)題、不同的環(huán)境和數(shù)據(jù)集。

針對(duì)這一挑戰(zhàn)，來(lái)自俄亥俄州立大學(xué)等地的研究人員發(fā)布了名為T(mén)REEOFLIFE-10M的數(shù)據(jù)集，這是迄今為止規(guī)模最大、最多樣化的生物學(xué)圖像數(shù)據(jù)集。借助TREEOFLIFE-10M提供的大量植物、動(dòng)物和真菌圖像，以及豐富的結(jié)構(gòu)化生物知識(shí)，研究團(tuán)隊(duì)開(kāi)發(fā)出了BioCLlP——面向生命樹(shù)的基礎(chǔ)模型。

經(jīng)過(guò)嚴(yán)謹(jǐn)?shù)臏y(cè)試和評(píng)估，BioCLlP在多個(gè)細(xì)粒度生物分類(lèi)任務(wù)中展現(xiàn)出了顯著的性能優(yōu)勢(shì)，表現(xiàn)優(yōu)于現(xiàn)有基準(zhǔn)模型16%至17%。內(nèi)在評(píng)估顯示，BioCLlP學(xué)習(xí)到了符合生命樹(shù)層次結(jié)構(gòu)的表示方法，有著強(qiáng)大的泛化能力和廣闊的應(yīng)用前景。

2.現(xiàn)場(chǎng)感受：參會(huì)者最關(guān)注三大熱門(mén)研究領(lǐng)域

CVPR 2024現(xiàn)場(chǎng)，圖片來(lái)源：「甲子光年」拍攝

CVPR前兩天的活動(dòng)以Workshop、Tutorial為主，與上述三個(gè)領(lǐng)域相關(guān)的活動(dòng)幾乎每場(chǎng)都座無(wú)虛席，這其中很多都是華人面孔，從國(guó)內(nèi)專(zhuān)程飛過(guò)來(lái)的觀眾也不少，西雅圖當(dāng)?shù)氐木频陜r(jià)格也水漲船高?！拔葑犹《鳦VPR又太火熱?！眮?lái)自中國(guó)科技大學(xué)的Dalison對(duì)「甲子光年」說(shuō)。

在國(guó)內(nèi)大學(xué)讀研二的小羅此行就是希望通過(guò)CVPR來(lái)“套瓷”自己的目標(biāo)博士生導(dǎo)師，“我已經(jīng)有目標(biāo)‘導(dǎo)師了’，寫(xiě)郵件很多時(shí)候可能就被淹沒(méi)在茫?！]’海中了，但在這里卻能和大佬們當(dāng)面交流?！?/p>

另一位來(lái)自丹麥哥本哈根參會(huì)者說(shuō)自己第一次來(lái)參加CVPR，所以想“都看看、都轉(zhuǎn)轉(zhuǎn)”，“但感興趣的演講一些在同時(shí)進(jìn)行，不得不做取舍?！?/p>

但是他發(fā)現(xiàn)再取舍，也會(huì)遇到擠不進(jìn)會(huì)場(chǎng)的情況。例如，魏茨曼研究所數(shù)學(xué)系和計(jì)算機(jī)學(xué)院助理教授Tali Dekel發(fā)表的《AI for Content Creation Workshop》演講，人多到已經(jīng)“溢出”房間了，她的研究方向主要在于圖像和視頻分析、多識(shí)圖系統(tǒng)等。

Tali Dekel的分享現(xiàn)場(chǎng)，觀眾已經(jīng)排出場(chǎng)外，圖片來(lái)源：「甲子光年」拍攝

而像Meta、OpenAI、LumaAI這樣的知名公司的分享，也吸引了大量觀眾的關(guān)注，人們紛紛涌向這些活動(dòng)的會(huì)議室，門(mén)口排起了長(zhǎng)長(zhǎng)的隊(duì)伍。

會(huì)議現(xiàn)場(chǎng)的觀眾，圖片來(lái)源：「甲子光年」拍攝

根據(jù)「甲子光年」在現(xiàn)場(chǎng)的觀察和探訪(fǎng)，本屆CVPR的熱門(mén)領(lǐng)域主要有三個(gè)：

2D&3D生成（2D&3D generation）；

具身智能（Embodied Artificial Intelligence）；

視覺(jué)基礎(chǔ)模型（Vision Foundation Models）。

2D&3D生成代表著從認(rèn)識(shí)世界到模擬世界，是人類(lèi)對(duì)真實(shí)世界的逆向重塑。

具身智能代表著從虛擬走向真實(shí)，從認(rèn)識(shí)世界到改變世界，是AI對(duì)自動(dòng)化機(jī)械的智慧“革新”。

視覺(jué)基礎(chǔ)模型是從局部子問(wèn)題走向通解，類(lèi)似于“All in one”，試圖尋找一個(gè)“視覺(jué)GPT”去解決大多計(jì)算機(jī)視覺(jué)問(wèn)題。做法是用統(tǒng)一的大模型去替代不同領(lǐng)域數(shù)據(jù)集上的專(zhuān)家模型。主要得益于Transformer技術(shù)的啟發(fā)。這類(lèi)模型在多個(gè)視覺(jué)任務(wù)中展示了卓越能力，包括圖像分類(lèi)、目標(biāo)檢測(cè)和圖像生成。

CVPR用不同研究子領(lǐng)域，將相似研究背景的科研人員聚合在一起。他們通過(guò)演講和Free talk的方式，分享自己的學(xué)術(shù)觀點(diǎn)和見(jiàn)解。雖然沒(méi)有統(tǒng)一的評(píng)價(jià)體系來(lái)判定其影響力，但對(duì)比下來(lái)，「甲子光年」感受到參會(huì)者心中都“自有判斷”，這幾天持續(xù)的思想碰撞會(huì)讓他們繼續(xù)探索新的研究方向。

這次會(huì)議共推出了123個(gè)workshop與24場(chǎng)tutorial，「甲子光年」主要聽(tīng)了其中三場(chǎng)。

首先是OpenAI的Sora團(tuán)隊(duì)負(fù)責(zé)人Tim Brooks的分享，他曾主導(dǎo)了三代DALL-E的研究工作和Sora項(xiàng)目。如往常一樣，Tim這次同樣未講述過(guò)多Sora的技術(shù)細(xì)節(jié)。有趣的是，在被問(wèn)及如何平衡科研和興趣時(shí)，他坦誠(chéng)地回答道：“我已經(jīng)一年多沒(méi)有做科研了?！?/p>

Tim Brooks在演講，圖片來(lái)源：「甲子光年」拍攝

瑞士蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)科學(xué)系助理教授湯思宇在題為《Virtual Humans for Robotics and Autonomous Driving》的workshop中，分享了人體和物體的交互模擬的觀點(diǎn)。從方法、數(shù)據(jù)等多個(gè)層面深入淺出地介紹了他們?nèi)祟?lèi)物體運(yùn)動(dòng)交互生成在系列工作。

她重點(diǎn)關(guān)注了人類(lèi)運(yùn)動(dòng)實(shí)時(shí)性、多樣性以及人造數(shù)據(jù)集的逼真性。這些工作對(duì)于人造機(jī)器人控制在算法上提供了幫助，能夠讓人形機(jī)器人根據(jù)簡(jiǎn)單的指令在模擬空間中做出自適應(yīng)的相應(yīng)動(dòng)作。

從這屆CVPR上關(guān)于人類(lèi)與物體交互的研究來(lái)看，人形機(jī)器人在關(guān)鍵點(diǎn)算法問(wèn)題上已經(jīng)逐步突破。未來(lái)需要做的是，這些算法在真實(shí)世界中的復(fù)雜場(chǎng)景下的可復(fù)現(xiàn)性，以及配合硬件算法是否真的能做到可控性和實(shí)時(shí)性。

湯思宇在演講，圖片來(lái)源：「甲子光年」拍攝

剛剛在國(guó)內(nèi)參加了2024北京智源大會(huì)的謝賽寧也出現(xiàn)在了CVPR 2024的現(xiàn)場(chǎng)，在主題為《Generative Models for Computer Vision》的workshop演講中，他提到了DiT從頂會(huì)的“棄兒”到業(yè)界“新寵”的歷程。和其他很多被拒論文一樣，《Scalable Diffusion Models with Transformers》這篇論文在CVPR 2023曾因“l(fā)ack of novelty（缺乏新穎性）”而遭到拒稿。

不過(guò)今年，謝賽寧參與的2篇論文被CVPR接收，在此前舉行北京智源大會(huì)上，他也對(duì)論文進(jìn)行了介紹。

謝賽寧在2024北京智源大會(huì)演講，圖片來(lái)源：「甲子光年」拍攝

其中一篇論文題為《Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs（視而不見(jiàn)？探究多模態(tài)大語(yǔ)言模型的視覺(jué)缺陷）》，聯(lián)合作者包括了圖靈獎(jiǎng)得主楊立昆和香港大學(xué)教授馬毅。

謝賽寧現(xiàn)場(chǎng)提出了一個(gè)問(wèn)題：“Is vision good enough for language? （視覺(jué)對(duì)語(yǔ)言來(lái)說(shuō)足夠好嗎？）”

多模態(tài)模型的進(jìn)步主要來(lái)自于大語(yǔ)言模型強(qiáng)大的推理能力。然而，視覺(jué)部分通常只依賴(lài)于實(shí)例級(jí)對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練（CLIP）。謝賽寧等人的研究表明，最近的多模態(tài)大語(yǔ)言模型（MLLMs）在視覺(jué)能力上仍然存在系統(tǒng)性的不足，他們提出了一種特征混合（MoF）方法，證明將視覺(jué)自監(jiān)督學(xué)習(xí)特征與MLLMs集成可以顯著增強(qiáng)它們的視覺(jué)基礎(chǔ)能力?？傊?，視覺(jué)表示學(xué)習(xí)仍然是一個(gè)開(kāi)放的挑戰(zhàn)，準(zhǔn)確的視覺(jué)基礎(chǔ)對(duì)于未來(lái)成功的多模態(tài)系統(tǒng)至關(guān)重要。

謝賽寧在2024北京智源大會(huì)演講，圖片來(lái)源：「甲子光年」拍攝

“我們其實(shí)可以嘗試去補(bǔ)足CLIP model的短板，”謝賽寧在智源大會(huì)上說(shuō)，“但是CLIP已經(jīng)待在這個(gè)領(lǐng)域里太久了，我們現(xiàn)在急需一個(gè)alternative pipeline（替代流程）。”

與智源大會(huì)上被“圍堵”類(lèi)似，謝賽寧也是CVPR 2024上的“明星”，在他演講結(jié)束之后，也有很多人圍住他期待與他交流。

CVPR 2024現(xiàn)場(chǎng)，圖片來(lái)源：「甲子光年」拍攝

在CVPR 2024現(xiàn)場(chǎng)，「甲子光年」感受到，在大模型時(shí)代的計(jì)算機(jī)視覺(jué)領(lǐng)域，傳統(tǒng)的判別式回歸任務(wù)的應(yīng)用空間被顯著壓縮。

如簡(jiǎn)單的圖像分類(lèi)、物體檢測(cè)等，曾經(jīng)是研究的重點(diǎn)，但現(xiàn)在它們的應(yīng)用空間正被顯著壓縮。這種變化主要是因?yàn)橄馦eta提出的“分割一切的模型”——SAM，這類(lèi)大型模型不僅能夠以高效率完成這些任務(wù)，還能在更復(fù)雜的任務(wù)上展現(xiàn)出色的性能。例如，SAM能夠通過(guò)大量預(yù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)到豐富的特征表示，使其能夠輕松適應(yīng)多種視覺(jué)任務(wù)，從基本的分類(lèi)到復(fù)雜的場(chǎng)景理解。

隨著AIGC在視覺(jué)任務(wù)中的需求高漲，對(duì)算力和大模型訓(xùn)練的經(jīng)驗(yàn)要求也隨之增加。AIGC涉及從文本到圖像的生成、風(fēng)格轉(zhuǎn)換、以及新穎視覺(jué)內(nèi)容的創(chuàng)造等復(fù)雜任務(wù)，這些都需要強(qiáng)大的計(jì)算資源和高級(jí)別的模型訓(xùn)練技能。

由于這些任務(wù)對(duì)資源的需求極高，學(xué)術(shù)界的多數(shù)團(tuán)隊(duì)在沒(méi)有足夠算力和資源的情況下，往往局限于進(jìn)行模型的微調(diào)（fine-tuning）或無(wú)需進(jìn)行大規(guī)模訓(xùn)練的研究。

這種資源限制導(dǎo)致了研究的兩極分化：一方面是有能力進(jìn)行大規(guī)模訓(xùn)練的大公司和頂尖實(shí)驗(yàn)室，他們能夠探索和創(chuàng)新更多高難度的技術(shù)；另一方面是資源有限的研究團(tuán)隊(duì)，他們需要在現(xiàn)有的技術(shù)框架內(nèi)尋找新的應(yīng)用方式或改進(jìn)方法。

只是這種分化在推動(dòng)技術(shù)快速進(jìn)步的同時(shí)，學(xué)術(shù)界又該如何面對(duì)平等科研機(jī)會(huì)的挑戰(zhàn)？

（封面圖來(lái)源：「甲子光年」拍攝）

原標(biāo)題：《CVPR 2024現(xiàn)場(chǎng)觀察：隨處可見(jiàn)的華人面孔和最熱的三大研究領(lǐng)域｜甲子光年》

閱讀原文

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪(fǎng)問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#CVPR