中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

CVPR 2024現(xiàn)場(chǎng)觀察:隨處可見(jiàn)的華人面孔和最熱的三大研究領(lǐng)域

2024-06-20 17:18
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
聽(tīng)全文
字號(hào)

原創(chuàng) 蘇霍伊 甲子光年

在涼爽的西雅圖,屋子太小,CVPR太火。

作者|蘇霍伊

編輯|王博

發(fā)自美國(guó)西雅圖

美國(guó)當(dāng)?shù)貢r(shí)間6月19日,2024年IEEE國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(CVPR)的最佳論文大獎(jiǎng)揭曉。

作為計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的頂級(jí)會(huì)議,每一屆的CVPR的最佳論文都會(huì)受到廣泛關(guān)注。今年共有4篇論文獲獎(jiǎng),其中2篇最佳論文,2篇最佳學(xué)生論文。

其中,最佳論文是:

《Generative Image Dynamics(生成圖像動(dòng)力學(xué))》,由谷歌研究院發(fā)布;

《Rich Human Feedback for Text-to-Image Generation(為文本到圖像生成提供豐富的人類(lèi)反饋)》,由加州大學(xué)圣地亞哥分校、谷歌研究院、南加州大學(xué)、劍橋大學(xué)及布蘭迪斯大學(xué)合作發(fā)布。

最佳學(xué)生論文是:

《Mip-Splatting: Alias-free 3D Gaussian Splatting(Mip-Splatting:無(wú)混疊的3D高斯噴濺)》,由德國(guó)圖賓根大學(xué)、圖賓根人工智能中心、上??萍即髮W(xué)及捷克理工大學(xué)合作發(fā)布。

《BioCLlP: A Vision Foundation Model for the Tree of Life(BioCLlP:生命之樹(shù)的視覺(jué)基礎(chǔ)模型)》,由美國(guó)俄亥俄州立大學(xué)、微軟研究院、加州大學(xué)歐文分校、倫斯勒理工學(xué)院共同發(fā)布。

CVPR火熱的現(xiàn)場(chǎng)與西雅圖涼爽的天氣形成了鮮明對(duì)比,現(xiàn)場(chǎng)幾乎所有活動(dòng)都要排隊(duì)。在6月17日到18日的活動(dòng)中,不少場(chǎng)次座位滿(mǎn)了,地板上也很快就坐滿(mǎn)了人,西雅圖會(huì)議中心的空地也有不少人席地而坐。

CVPR 2024現(xiàn)場(chǎng),「甲子光年」拍攝

「甲子光年」從大會(huì)主辦方了解到,本屆CVPR共有來(lái)自76個(gè)國(guó)家和地區(qū)的超過(guò)12000人參加了線(xiàn)下會(huì)議,是CVPR歷史上與會(huì)人數(shù)最多、規(guī)模最大的一屆。其中,來(lái)自中國(guó)的參會(huì)者是美國(guó)之外最多的,共有1730人,包括中國(guó)內(nèi)地1511人、中國(guó)香港134人、中國(guó)澳門(mén)2人、中國(guó)臺(tái)灣83人。

今年CVPR共收到11532篇論文投稿,相比2023年的9155篇增加了25%,論文數(shù)量達(dá)到了歷史新高,錄取率卻從去年的25.8%小幅下降到了23.6%, 僅2719篇被接收,競(jìng)爭(zhēng)愈發(fā)激烈。

來(lái)自美國(guó)高校的Mark對(duì)「甲子光年」表示,本屆盲審階段獲得三位審稿人一致滿(mǎn)分意見(jiàn)(5/5/5)的論文“不在少數(shù)”,他的論文也是其中之一。“CVPR的審稿要求,所有的審稿只看質(zhì)量不用接收率來(lái)衡量,所以滿(mǎn)分多了并不是審查要求放低了,而是論文質(zhì)量提高了。”Mark也是本屆最佳學(xué)生論文的亞軍獲得者。

“合作”仍是學(xué)術(shù)研究的關(guān)鍵詞。學(xué)術(shù)界貢獻(xiàn)了39.4%的論文,而產(chǎn)業(yè)界與學(xué)術(shù)界合作成果則貢獻(xiàn)了27.6%的論文。在產(chǎn)業(yè)界中,谷歌是最大的貢獻(xiàn)者,提交了52篇論文,往后是騰訊和Meta,各貢獻(xiàn)了35篇論文。

同時(shí)論文作者也增加了不少,參與撰寫(xiě)被接受論文的作者人數(shù)從去年的8457人增加到超過(guò)10000人。其中只有大約三分之一的作者在去年有論文被接受,許多新面孔加入了這場(chǎng)“學(xué)術(shù)競(jìng)賽”。

高亮論文(Highlights)和口頭(Oral)報(bào)告環(huán)節(jié)也非常引人注目,分別有324篇和90篇論文獲選進(jìn)行展示,占總提交論文的2.81%和0.78%,入選比例不高,但每一篇都代表了CV領(lǐng)域的頂尖水平。

CVPR 2024論文主題分布,來(lái)源:CVPR

CVPR 2024論文數(shù)據(jù)展示了計(jì)算機(jī)視覺(jué)領(lǐng)域的全球趨勢(shì)和新動(dòng)向。研究最多的主題有:圖像和視頻合成與生成、三維視覺(jué)、人體行為識(shí)別、視覺(jué)、語(yǔ)言與語(yǔ)言推理、底層視覺(jué)、識(shí)別、遷移學(xué)習(xí)與多模態(tài)學(xué)習(xí)。特別是圖像和視頻合成與生成,這一研究主題在會(huì)議中共有329篇相關(guān)論文,是絕對(duì)的研究熱點(diǎn)。緊隨其后的是三維視覺(jué)和人體行為識(shí)別,分別有276篇和202篇論文。

根據(jù)「甲子光年」在現(xiàn)場(chǎng)的觀察和探訪(fǎng),本屆CVPR的熱門(mén)研究領(lǐng)域主要有三個(gè):

2D&3D生成(2D&3D generation);

具身智能(Embodied Artificial Intelligence);

視覺(jué)基礎(chǔ)模型(Vision Foundation Models)。

1.最佳論文:谷歌研究院成最大贏家

相信大家對(duì)上一屆CVPR的最佳論文還有印象,由上海人工智能實(shí)驗(yàn)室、武漢大學(xué)及商湯科技聯(lián)合完成的《Planning-oriented Autonomous Driving(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛)》,這也是近十年來(lái)計(jì)算機(jī)視覺(jué)三大頂級(jí)會(huì)議中(CVPR、ICCV、ECCV),第一篇以中國(guó)學(xué)術(shù)機(jī)構(gòu)作為第一單位的最佳論文。另外,來(lái)自西北工業(yè)大學(xué)的團(tuán)隊(duì)也獲得了CVPR 2023的最佳學(xué)生論文的榮譽(yù)。

盡管本屆CVPR接收的來(lái)自中國(guó)的論文不少,但是最終只有上??萍即髮W(xué)的團(tuán)隊(duì)參與的論文獲得了本屆最佳學(xué)生論文。前兩屆獲得最佳論文(最佳學(xué)生論文)提名的谷歌則是打了一個(gè)翻身仗,CVPR 2024兩篇最佳論文都來(lái)自谷歌研究院,一作都是華人。

最佳論文《Generative Image Dynamics》頒獎(jiǎng)現(xiàn)場(chǎng),圖片來(lái)源:「甲子光年」拍攝

第一篇最佳論文是來(lái)自谷歌研究院的《Generative Image Dynamics》,作者為Zhengqi Li、 Richard Tucker、Noah Snavely和Aleksander Holynski。

論文本質(zhì)上研究了一類(lèi)視頻生成的子類(lèi)問(wèn)題,植物火苗等空氣動(dòng)態(tài)搖曳運(yùn)動(dòng)視頻生成,它代表了真實(shí)物理世界中的空氣運(yùn)動(dòng),而這種運(yùn)動(dòng)是十分難以模擬的。

方法框架是采用兩階段的級(jí)聯(lián)范式,第一從靜態(tài)圖片當(dāng)中運(yùn)動(dòng)軌跡,第二以運(yùn)動(dòng)軌跡和靜態(tài)圖片為先驗(yàn),生成動(dòng)態(tài)視頻。文章發(fā)現(xiàn)頻譜體積這一特征可以作為一個(gè)很好的先驗(yàn),控制靜態(tài)圖片的搖曳運(yùn)動(dòng)。值得注意的是,這樣頻譜體積也能從簡(jiǎn)單的運(yùn)動(dòng),比如鼠標(biāo)移動(dòng)中重建恢復(fù)出來(lái)。

所以這項(xiàng)研究在虛擬世界人機(jī)交互,真實(shí)世界模擬的中有非常大的潛力和范式作用?,F(xiàn)在很少用文章講底層的信號(hào)處理知識(shí)和high level的任務(wù),如圖像生成聯(lián)系起來(lái)。這篇文章回顧傳統(tǒng)的信號(hào)處理算法,能夠幫研究者做出具有差異化的實(shí)質(zhì)性工作。

最佳論文《Rich Human Feedback for Text-to-Image Generation》頒獎(jiǎng)現(xiàn)場(chǎng),圖片來(lái)源:「甲子光年」拍攝

第二篇最佳論文由加州大學(xué)圣地亞哥分校、谷歌研究院、南加州大學(xué)、劍橋大學(xué)及布蘭迪斯大學(xué)共同發(fā)表的《Rich Human Feedback for Text-to-Image Generation》斬獲,作者有Youwei Liang、Junfeng He、Gang Li、Peizhao Li等人。

他們提出的方法自動(dòng)化模擬了人類(lèi)的反饋過(guò)程。

許多生成的圖像仍面臨著不夠真實(shí)、與文字描述不匹配以及審美質(zhì)量不高等問(wèn)題。該研究通過(guò)選用高質(zhì)量的訓(xùn)練數(shù)據(jù)對(duì)生成模型進(jìn)行微調(diào),或者通過(guò)使用帶預(yù)測(cè)熱圖的掩模來(lái)修正這些問(wèn)題區(qū)域,從而改善了圖像的生成質(zhì)量。值得一提的是,這些改進(jìn)措施不僅適用于收集人類(lèi)反饋數(shù)據(jù)的圖像,也能擴(kuò)展到其他模型(如Muse模型)中。

人類(lèi)反饋的概念最初由OpenAI在GPT模型中提出,目的是通過(guò)人類(lèi)標(biāo)注來(lái)指導(dǎo)并改正模型的不足。這篇論文將人類(lèi)反饋的方法引入到圖像生成領(lǐng)域,不僅如此,研究人員還創(chuàng)建了一個(gè)包含各種錯(cuò)誤(如不匹配的文本、偽影區(qū)域、語(yǔ)義錯(cuò)誤匹配和主觀評(píng)分)的數(shù)據(jù)集。同時(shí),他們也嘗試使用一個(gè)多模態(tài)判別模型來(lái)模擬人類(lèi)反饋的自動(dòng)化過(guò)程。

實(shí)驗(yàn)結(jié)果表示自動(dòng)化的標(biāo)注模型在一定程度上能夠模仿人類(lèi)的反饋,顯示出與人類(lèi)標(biāo)注的一致性。但值得深入探討的是,這種自動(dòng)化評(píng)分模型是否能真正替代人類(lèi)的評(píng)價(jià)。因?yàn)槿祟?lèi)反饋通常來(lái)源于具有不同背景的多樣人群,能夠提供更全面的評(píng)判。相比之下,自動(dòng)化評(píng)分可能面臨評(píng)判過(guò)于單一和模型過(guò)擬合的問(wèn)題,尤其是這些模型通常是在特定的生成模型和圖文對(duì)上進(jìn)行訓(xùn)練的。

可以說(shuō),自動(dòng)化標(biāo)注模型在模擬人類(lèi)反饋方面取得了一定成果,但其泛化能力和一致性仍需進(jìn)一步驗(yàn)證。

最佳學(xué)生論文《Mip-Splatting: Alias-free 3D Gaussian Splatting》頒獎(jiǎng)現(xiàn)場(chǎng),來(lái)源:CVPR

再來(lái)看最佳學(xué)生論文。

第一篇最佳學(xué)生論文頒發(fā)給了《Mip-Splatting: Alias-free 3D Gaussian Splatting》,由德國(guó)圖賓根大學(xué)、圖賓根人工智能中心、上海科技大學(xué)及捷克理工大學(xué)共同發(fā)表。作者為Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler和Andreas Geiger,其中論文的一作、二作都是上??萍即髮W(xué)的在讀或畢業(yè)生。

這篇論文重要關(guān)注3D高斯噴濺(Gaussian splash)在三維重建領(lǐng)域取得了高質(zhì)量的效果,尤其是其渲染速度相比于之前的Nerf(神經(jīng)輻射場(chǎng))的方法有了極大的提升,但這一方法在改變采樣率時(shí),例如在改變焦距或者相機(jī)距離時(shí)會(huì)產(chǎn)生偽影,問(wèn)題的根源可以歸因于缺乏3D頻率的約束和使用2D膨脹濾波器。

去年7月,法國(guó)科研機(jī)構(gòu)Inria和德國(guó)馬普所聯(lián)合發(fā)表了一篇論文,詳細(xì)介紹3D高斯噴濺技術(shù),這項(xiàng)技術(shù)使得大規(guī)模生成精細(xì)化3D模型成為可能。論文一經(jīng)發(fā)出,便在計(jì)算機(jī)視覺(jué)領(lǐng)域引起極高關(guān)注。AI創(chuàng)企知天下的創(chuàng)始人兼CEO宋寬此前對(duì)「甲子光年」表示:“這項(xiàng)技術(shù)具有劃時(shí)代意義,高斯噴濺將使三維點(diǎn)云算法從‘小眾’變成‘大殺器’?!?/p>

「甲子光年」注意到,這次Mip-Splatting引入了一個(gè)3D平滑濾波器,該濾波器根據(jù)輸入視圖引起的最大采樣頻率來(lái)約束高斯基元,從而消除高頻偽影。

高斯偽影是3D生成中難以解決的問(wèn)題。作者們引入了一個(gè)2D mip濾波器代替2D膨脹,可有效緩解混疊和膨脹問(wèn)題,和高斯偽影問(wèn)題。

值得一提的是,文章作者之一Binbin Huang(黃彬彬)還另提出2D Gaussian的高質(zhì)量文章,可通過(guò)將3D基元轉(zhuǎn)換為2D基元,有效地解決3D高斯表面幾何粗糙的問(wèn)題。

最佳學(xué)生論文《BioCLlP: A Vision Foundation Model for the Tree of Life》頒獎(jiǎng)現(xiàn)場(chǎng),來(lái)源:「甲子光年」拍攝

第二篇最佳學(xué)生論文由美國(guó)俄亥俄州立大學(xué)、微軟研究院、加州大學(xué)歐文分校、倫斯勒理工學(xué)院共同發(fā)布的《BioCLlP: A Vision Foundation Model for the Tree of Life》獲得,作者有Samuel Stevens、Jiaman (Lisa) Wu、Matthew J Thompson等。

近年來(lái),隨著無(wú)人機(jī)到個(gè)人手機(jī)等多種攝像設(shè)備的普及,自然界圖像的收集已變得異常豐富。這些圖像不僅僅是生物信息的豐富源泉,更成為了科學(xué)研究和保護(hù)工作中不可或缺的重要工具。然而,現(xiàn)有的計(jì)算方法和工具,尤其是計(jì)算機(jī)視覺(jué)技術(shù),大多數(shù)是為特定任務(wù)量身定制的,難以適應(yīng)新的問(wèn)題、不同的環(huán)境和數(shù)據(jù)集。

針對(duì)這一挑戰(zhàn),來(lái)自俄亥俄州立大學(xué)等地的研究人員發(fā)布了名為T(mén)REEOFLIFE-10M的數(shù)據(jù)集,這是迄今為止規(guī)模最大、最多樣化的生物學(xué)圖像數(shù)據(jù)集。借助TREEOFLIFE-10M提供的大量植物、動(dòng)物和真菌圖像,以及豐富的結(jié)構(gòu)化生物知識(shí),研究團(tuán)隊(duì)開(kāi)發(fā)出了BioCLlP——面向生命樹(shù)的基礎(chǔ)模型。

經(jīng)過(guò)嚴(yán)謹(jǐn)?shù)臏y(cè)試和評(píng)估,BioCLlP在多個(gè)細(xì)粒度生物分類(lèi)任務(wù)中展現(xiàn)出了顯著的性能優(yōu)勢(shì),表現(xiàn)優(yōu)于現(xiàn)有基準(zhǔn)模型16%至17%。內(nèi)在評(píng)估顯示,BioCLlP學(xué)習(xí)到了符合生命樹(shù)層次結(jié)構(gòu)的表示方法,有著強(qiáng)大的泛化能力和廣闊的應(yīng)用前景。

2.現(xiàn)場(chǎng)感受:參會(huì)者最關(guān)注三大熱門(mén)研究領(lǐng)域

CVPR 2024現(xiàn)場(chǎng),圖片來(lái)源:「甲子光年」拍攝

CVPR前兩天的活動(dòng)以Workshop、Tutorial為主,與上述三個(gè)領(lǐng)域相關(guān)的活動(dòng)幾乎每場(chǎng)都座無(wú)虛席,這其中很多都是華人面孔,從國(guó)內(nèi)專(zhuān)程飛過(guò)來(lái)的觀眾也不少,西雅圖當(dāng)?shù)氐木频陜r(jià)格也水漲船高?!拔葑犹《鳦VPR又太火熱?!眮?lái)自中國(guó)科技大學(xué)的Dalison對(duì)「甲子光年」說(shuō)。

在國(guó)內(nèi)大學(xué)讀研二的小羅此行就是希望通過(guò)CVPR來(lái)“套瓷”自己的目標(biāo)博士生導(dǎo)師,“我已經(jīng)有目標(biāo)‘導(dǎo)師了’,寫(xiě)郵件很多時(shí)候可能就被淹沒(méi)在茫?!]’海中了,但在這里卻能和大佬們當(dāng)面交流?!?/p>

另一位來(lái)自丹麥哥本哈根參會(huì)者說(shuō)自己第一次來(lái)參加CVPR,所以想“都看看、都轉(zhuǎn)轉(zhuǎn)”,“但感興趣的演講一些在同時(shí)進(jìn)行,不得不做取舍?!?/p>

但是他發(fā)現(xiàn)再取舍,也會(huì)遇到擠不進(jìn)會(huì)場(chǎng)的情況。例如,魏茨曼研究所數(shù)學(xué)系和計(jì)算機(jī)學(xué)院助理教授Tali Dekel發(fā)表的《AI for Content Creation Workshop》演講,人多到已經(jīng)“溢出”房間了,她的研究方向主要在于圖像和視頻分析、多識(shí)圖系統(tǒng)等。

Tali Dekel的分享現(xiàn)場(chǎng),觀眾已經(jīng)排出場(chǎng)外,圖片來(lái)源:「甲子光年」拍攝

而像Meta、OpenAI、LumaAI這樣的知名公司的分享,也吸引了大量觀眾的關(guān)注,人們紛紛涌向這些活動(dòng)的會(huì)議室,門(mén)口排起了長(zhǎng)長(zhǎng)的隊(duì)伍。

會(huì)議現(xiàn)場(chǎng)的觀眾,圖片來(lái)源:「甲子光年」拍攝

根據(jù)「甲子光年」在現(xiàn)場(chǎng)的觀察和探訪(fǎng),本屆CVPR的熱門(mén)領(lǐng)域主要有三個(gè):

2D&3D生成(2D&3D generation);

具身智能(Embodied Artificial Intelligence);

視覺(jué)基礎(chǔ)模型(Vision Foundation Models)。

2D&3D生成代表著從認(rèn)識(shí)世界到模擬世界,是人類(lèi)對(duì)真實(shí)世界的逆向重塑。

具身智能代表著從虛擬走向真實(shí),從認(rèn)識(shí)世界到改變世界,是AI對(duì)自動(dòng)化機(jī)械的智慧“革新”。

視覺(jué)基礎(chǔ)模型是從局部子問(wèn)題走向通解,類(lèi)似于“All in one”,試圖尋找一個(gè)“視覺(jué)GPT”去解決大多計(jì)算機(jī)視覺(jué)問(wèn)題。做法是用統(tǒng)一的大模型去替代不同領(lǐng)域數(shù)據(jù)集上的專(zhuān)家模型。主要得益于Transformer技術(shù)的啟發(fā)。這類(lèi)模型在多個(gè)視覺(jué)任務(wù)中展示了卓越能力,包括圖像分類(lèi)、目標(biāo)檢測(cè)和圖像生成。

CVPR用不同研究子領(lǐng)域,將相似研究背景的科研人員聚合在一起。他們通過(guò)演講和Free talk的方式,分享自己的學(xué)術(shù)觀點(diǎn)和見(jiàn)解。雖然沒(méi)有統(tǒng)一的評(píng)價(jià)體系來(lái)判定其影響力,但對(duì)比下來(lái),「甲子光年」感受到參會(huì)者心中都“自有判斷”,這幾天持續(xù)的思想碰撞會(huì)讓他們繼續(xù)探索新的研究方向。

這次會(huì)議共推出了123個(gè)workshop與24場(chǎng)tutorial,「甲子光年」主要聽(tīng)了其中三場(chǎng)。

首先是OpenAI的Sora團(tuán)隊(duì)負(fù)責(zé)人Tim Brooks的分享,他曾主導(dǎo)了三代DALL-E的研究工作和Sora項(xiàng)目。如往常一樣,Tim這次同樣未講述過(guò)多Sora的技術(shù)細(xì)節(jié)。有趣的是,在被問(wèn)及如何平衡科研和興趣時(shí),他坦誠(chéng)地回答道:“我已經(jīng)一年多沒(méi)有做科研了?!?/p>

Tim Brooks在演講,圖片來(lái)源:「甲子光年」拍攝

瑞士蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)科學(xué)系助理教授湯思宇在題為《Virtual Humans for Robotics and Autonomous Driving》的workshop中,分享了人體和物體的交互模擬的觀點(diǎn)。從方法、數(shù)據(jù)等多個(gè)層面深入淺出地介紹了他們?nèi)祟?lèi)物體運(yùn)動(dòng)交互生成在系列工作。

她重點(diǎn)關(guān)注了人類(lèi)運(yùn)動(dòng)實(shí)時(shí)性、多樣性以及人造數(shù)據(jù)集的逼真性。這些工作對(duì)于人造機(jī)器人控制在算法上提供了幫助,能夠讓人形機(jī)器人根據(jù)簡(jiǎn)單的指令在模擬空間中做出自適應(yīng)的相應(yīng)動(dòng)作。

從這屆CVPR上關(guān)于人類(lèi)與物體交互的研究來(lái)看,人形機(jī)器人在關(guān)鍵點(diǎn)算法問(wèn)題上已經(jīng)逐步突破。未來(lái)需要做的是,這些算法在真實(shí)世界中的復(fù)雜場(chǎng)景下的可復(fù)現(xiàn)性,以及配合硬件算法是否真的能做到可控性和實(shí)時(shí)性。

湯思宇在演講,圖片來(lái)源:「甲子光年」拍攝

剛剛在國(guó)內(nèi)參加了2024北京智源大會(huì)的謝賽寧也出現(xiàn)在了CVPR 2024的現(xiàn)場(chǎng),在主題為《Generative Models for Computer Vision》的workshop演講中,他提到了DiT從頂會(huì)的“棄兒”到業(yè)界“新寵”的歷程。和其他很多被拒論文一樣,《Scalable Diffusion Models with Transformers》這篇論文在CVPR 2023曾因“l(fā)ack of novelty(缺乏新穎性)”而遭到拒稿。

不過(guò)今年,謝賽寧參與的2篇論文被CVPR接收,在此前舉行北京智源大會(huì)上,他也對(duì)論文進(jìn)行了介紹。

謝賽寧在2024北京智源大會(huì)演講,圖片來(lái)源:「甲子光年」拍攝

其中一篇論文題為《Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs(視而不見(jiàn)?探究多模態(tài)大語(yǔ)言模型的視覺(jué)缺陷)》,聯(lián)合作者包括了圖靈獎(jiǎng)得主楊立昆和香港大學(xué)教授馬毅。

謝賽寧現(xiàn)場(chǎng)提出了一個(gè)問(wèn)題:“Is vision good enough for language? (視覺(jué)對(duì)語(yǔ)言來(lái)說(shuō)足夠好嗎?)”

多模態(tài)模型的進(jìn)步主要來(lái)自于大語(yǔ)言模型強(qiáng)大的推理能力。然而,視覺(jué)部分通常只依賴(lài)于實(shí)例級(jí)對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練(CLIP)。謝賽寧等人的研究表明,最近的多模態(tài)大語(yǔ)言模型(MLLMs)在視覺(jué)能力上仍然存在系統(tǒng)性的不足,他們提出了一種特征混合(MoF)方法,證明將視覺(jué)自監(jiān)督學(xué)習(xí)特征與MLLMs集成可以顯著增強(qiáng)它們的視覺(jué)基礎(chǔ)能力??傊?,視覺(jué)表示學(xué)習(xí)仍然是一個(gè)開(kāi)放的挑戰(zhàn),準(zhǔn)確的視覺(jué)基礎(chǔ)對(duì)于未來(lái)成功的多模態(tài)系統(tǒng)至關(guān)重要。

謝賽寧在2024北京智源大會(huì)演講,圖片來(lái)源:「甲子光年」拍攝

“我們其實(shí)可以嘗試去補(bǔ)足CLIP model的短板,”謝賽寧在智源大會(huì)上說(shuō),“但是CLIP已經(jīng)待在這個(gè)領(lǐng)域里太久了,我們現(xiàn)在急需一個(gè)alternative pipeline(替代流程)。”

與智源大會(huì)上被“圍堵”類(lèi)似,謝賽寧也是CVPR 2024上的“明星”,在他演講結(jié)束之后,也有很多人圍住他期待與他交流。

CVPR 2024現(xiàn)場(chǎng),圖片來(lái)源:「甲子光年」拍攝

在CVPR 2024現(xiàn)場(chǎng),「甲子光年」感受到,在大模型時(shí)代的計(jì)算機(jī)視覺(jué)領(lǐng)域,傳統(tǒng)的判別式回歸任務(wù)的應(yīng)用空間被顯著壓縮。

如簡(jiǎn)單的圖像分類(lèi)、物體檢測(cè)等,曾經(jīng)是研究的重點(diǎn),但現(xiàn)在它們的應(yīng)用空間正被顯著壓縮。這種變化主要是因?yàn)橄馦eta提出的“分割一切的模型”——SAM,這類(lèi)大型模型不僅能夠以高效率完成這些任務(wù),還能在更復(fù)雜的任務(wù)上展現(xiàn)出色的性能。例如,SAM能夠通過(guò)大量預(yù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)到豐富的特征表示,使其能夠輕松適應(yīng)多種視覺(jué)任務(wù),從基本的分類(lèi)到復(fù)雜的場(chǎng)景理解。

隨著AIGC在視覺(jué)任務(wù)中的需求高漲,對(duì)算力和大模型訓(xùn)練的經(jīng)驗(yàn)要求也隨之增加。AIGC涉及從文本到圖像的生成、風(fēng)格轉(zhuǎn)換、以及新穎視覺(jué)內(nèi)容的創(chuàng)造等復(fù)雜任務(wù),這些都需要強(qiáng)大的計(jì)算資源和高級(jí)別的模型訓(xùn)練技能。

由于這些任務(wù)對(duì)資源的需求極高,學(xué)術(shù)界的多數(shù)團(tuán)隊(duì)在沒(méi)有足夠算力和資源的情況下,往往局限于進(jìn)行模型的微調(diào)(fine-tuning)或無(wú)需進(jìn)行大規(guī)模訓(xùn)練的研究。

這種資源限制導(dǎo)致了研究的兩極分化:一方面是有能力進(jìn)行大規(guī)模訓(xùn)練的大公司和頂尖實(shí)驗(yàn)室,他們能夠探索和創(chuàng)新更多高難度的技術(shù);另一方面是資源有限的研究團(tuán)隊(duì),他們需要在現(xiàn)有的技術(shù)框架內(nèi)尋找新的應(yīng)用方式或改進(jìn)方法。

只是這種分化在推動(dòng)技術(shù)快速進(jìn)步的同時(shí),學(xué)術(shù)界又該如何面對(duì)平等科研機(jī)會(huì)的挑戰(zhàn)?

(封面圖來(lái)源:「甲子光年」拍攝)

原標(biāo)題:《CVPR 2024現(xiàn)場(chǎng)觀察:隨處可見(jiàn)的華人面孔和最熱的三大研究領(lǐng)域|甲子光年》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪(fǎng)問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶(hù)端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司