- +1
告別視頻通話“渣畫質(zhì)”,英偉達(dá)新算法最高壓縮90%流量
曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
為了讓網(wǎng)速慢的用戶用上高清通話,英偉達(dá)可謂絞盡腦汁。他們開發(fā)的新AI算法,可以將視頻通話的流量最高壓縮90%以上。


H.264視頻所需的帶寬是這種新算法的2~12倍,從前面的演示也能看出,如果讓二者使用相同比特率,那么H.264視頻幾乎不可用。

英偉達(dá)提供了一個(gè)試用Demo,可以在Pitch(俯仰角)、Yaw(偏航角)、Roll(翻滾角)三個(gè)方向上任意旋轉(zhuǎn)。



合成面部視頻
我們把上傳的清晰照片作為源圖像,從中獲取外貌特征。然后把視頻中一幀幀畫面作為重構(gòu)視頻的依據(jù),從中提取出面部表情和頭部姿勢等信息。
而表情和姿勢這兩個(gè)數(shù)據(jù)可以通過關(guān)鍵點(diǎn)進(jìn)行編碼,這樣就分離了人物身份信息和運(yùn)動(dòng)信息。在傳輸視頻時(shí)只要有運(yùn)動(dòng)信息即可,從而節(jié)約了流量。

其中,雅可比矩陣表示如何通過仿射變換將關(guān)鍵點(diǎn)周圍的局部補(bǔ)丁轉(zhuǎn)換為另一幅圖像中的補(bǔ)丁。如果是恒等雅可比矩陣,則補(bǔ)丁將直接復(fù)制并粘貼到新位置。


接下來開始合成視頻。使用源和運(yùn)動(dòng)的關(guān)鍵點(diǎn)與其雅可比矩陣來估計(jì)流wk,從生成流組合成掩碼m,將這兩組進(jìn)行線性組合即可產(chǎn)生合成流場w。

這種方法不僅能用于視頻通話,也有其他“新玩法”。
比如覺得人物頭像有點(diǎn)歪,可以手動(dòng)輸入糾正后的數(shù)據(jù),從而將面部轉(zhuǎn)正。


這篇文章的第一作者是來自英偉達(dá)的高級(jí)研究員Ting-Chun Wang。



兩人之前已經(jīng)有過多次合作。比如。無監(jiān)督圖像遷移網(wǎng)絡(luò)(NIPS 2017),還有從涂鴉生成照片的GauGAN(CVPR 2019),都是出自這二位之手。
項(xiàng)目頁面:
https://nvlabs.github.io/face-vid2vid/
論文地址:
https://arxiv.org/abs/2011.15126
— 完 —
本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。
原標(biāo)題:《告別視頻通話“渣畫質(zhì)”,英偉達(dá)新算法最高壓縮90%流量》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




