中文字幕国产91无码|AV成人手机在线|av成人先锋在线|911无码在线国产人人操|91蜜桃视频精品免费在线|极品美女A∨片在线看|日韩在线成人视频日韩|电影三级成人黄免费影片|超碰97国产在线|国产成人精品色情免费视频

  • +1

告別視頻通話“渣畫質(zhì)”,英偉達(dá)新算法最高壓縮90%流量

2020-12-02 17:06
來源:澎湃新聞·澎湃號(hào)·湃客
聽全文
字號(hào)

曉查 發(fā)自 凹非寺

量子位 報(bào)道 | 公眾號(hào) QbitAI

為了讓網(wǎng)速慢的用戶用上高清通話,英偉達(dá)可謂絞盡腦汁。他們開發(fā)的新AI算法,可以將視頻通話的流量最高壓縮90%以上。

和其他視頻相比,通話的場景比較單一,基本上只有人的頭部在運(yùn)動(dòng)。因此只要能把頭像數(shù)據(jù)大規(guī)模壓縮,就能大大節(jié)約流量。
英偉達(dá)的新算法face vid2vid正是從這一點(diǎn)出發(fā)。只要一張圖片,就能實(shí)現(xiàn)重建各種頭部姿勢圖片。

H.264視頻所需的帶寬是這種新算法的2~12倍,從前面的演示也能看出,如果讓二者使用相同比特率,那么H.264視頻幾乎不可用。

轉(zhuǎn)動(dòng)面部不扭曲

英偉達(dá)提供了一個(gè)試用Demo,可以在Pitch(俯仰角)、Yaw(偏航角)、Roll(翻滾角)三個(gè)方向上任意旋轉(zhuǎn)。

輸入一張人臉,最多可以在每個(gè)方向上最多旋轉(zhuǎn)30度。以下是三個(gè)方向上旋轉(zhuǎn)到最大角度生成的圖片。
與相比之前的方法,英偉達(dá)的這種技術(shù)即使在面部轉(zhuǎn)動(dòng)幅度較大時(shí),人臉也不會(huì)扭曲變形。
然而,圖片終究是不動(dòng)的,要把生成的人臉放在運(yùn)動(dòng)的視頻中還要多一個(gè)步驟。

合成面部視頻

我們把上傳的清晰照片作為源圖像,從中獲取外貌特征。然后把視頻中一幀幀畫面作為重構(gòu)視頻的依據(jù),從中提取出面部表情和頭部姿勢等信息。

而表情和姿勢這兩個(gè)數(shù)據(jù)可以通過關(guān)鍵點(diǎn)進(jìn)行編碼,這樣就分離了人物身份信息和運(yùn)動(dòng)信息。在傳輸視頻時(shí)只要有運(yùn)動(dòng)信息即可,從而節(jié)約了流量。

從源圖像s中,我們得到了兩組數(shù)據(jù):關(guān)鍵點(diǎn)坐標(biāo)x和雅可比矩陣J。這兩組參數(shù)與面部的具體特征無關(guān),只包含人的幾何特征。

其中,雅可比矩陣表示如何通過仿射變換將關(guān)鍵點(diǎn)周圍的局部補(bǔ)丁轉(zhuǎn)換為另一幅圖像中的補(bǔ)丁。如果是恒等雅可比矩陣,則補(bǔ)丁將直接復(fù)制并粘貼到新位置。

下圖展示了計(jì)算前5個(gè)關(guān)鍵點(diǎn)的流程。給定源圖像以及模型預(yù)測的規(guī)范關(guān)鍵點(diǎn)。
從運(yùn)動(dòng)視頻估計(jì)的旋轉(zhuǎn)和平移應(yīng)用于關(guān)鍵點(diǎn),帶動(dòng)頭部姿勢的變化。然后可以感知表情的變形將關(guān)鍵點(diǎn)調(diào)整為目標(biāo)表情。

接下來開始合成視頻。使用源和運(yùn)動(dòng)的關(guān)鍵點(diǎn)與其雅可比矩陣來估計(jì)流wk,從生成流組合成掩碼m,將這兩組進(jìn)行線性組合即可產(chǎn)生合成流場w。

接著輸入人臉面部特征f,即可生成輸出圖像y。

這種方法不僅能用于視頻通話,也有其他“新玩法”。

比如覺得人物頭像有點(diǎn)歪,可以手動(dòng)輸入糾正后的數(shù)據(jù),從而將面部轉(zhuǎn)正。

又或者是,把一個(gè)人的面部特征點(diǎn)和雅可比矩陣用于另一個(gè)人,實(shí)現(xiàn)面部視頻動(dòng)作的遷移。
團(tuán)隊(duì)簡介

這篇文章的第一作者是來自英偉達(dá)的高級(jí)研究員Ting-Chun Wang。

文章的通訊作者是英偉達(dá)的著名研究員劉洺堉。
如果你長期關(guān)注CV領(lǐng)域,一定對(duì)這兩位作者非常熟悉。他們?cè)趫D像風(fēng)格遷移、GAN等方面做出了大量的工作。
△ GauGAN

兩人之前已經(jīng)有過多次合作。比如。無監(jiān)督圖像遷移網(wǎng)絡(luò)(NIPS 2017),還有從涂鴉生成照片的GauGAN(CVPR 2019),都是出自這二位之手。

項(xiàng)目頁面:

https://nvlabs.github.io/face-vid2vid/

論文地址:

https://arxiv.org/abs/2011.15126

— 完 —

本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。

原標(biāo)題:《告別視頻通話“渣畫質(zhì)”,英偉達(dá)新算法最高壓縮90%流量》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司