- +1
在家憋瘋的外國人,用奇怪的方法練起了口技
原創(chuàng) 栗子 果殼

疫情所致,歪果仁也許久不曾出門了。
日子一長,難免開始修習(xí)奇妙的法術(shù)。
口技便是其中之一。這門古老的藝術(shù),沒有經(jīng)年累月的苦練,恐怕難以運用自如。
不料谷歌眾人搬出一只AI。有了它,即便是凡人發(fā)出的聲響,也能變成樂器的音色。比如薩克斯風(fēng)的旋律:
賣家秀來自谷歌研究員;買家秀素材來自撒貝寧《經(jīng)典詠流傳》,薩克斯風(fēng)音色由AI合成丨DDSP
這AI叫做DDSP,已有線上試玩Demo。既然建國之后無法成精,不如就化作戲精吧:
https://colab.research.google.com/github/magenta/ddsp/blob/master/ddsp/colab/demos/timbre_transfer.ipynb
在下服用之后,表示療效上佳。
模仿,要從源頭學(xué)起
假如只懂得薩克斯風(fēng)一種樂器,恐怕還稱不上口技。
DDSP還支持長笛、小提琴和小號的修煉。你聽,這里有長笛獨奏的五環(huán)之歌:
五環(huán)之歌素材來自《魯豫有約》,鋼琴版《名偵探柯南》主題曲素材來自Lisa's Music Diary,長笛音色由AI合成丨DDSP
當(dāng)然,原聲不見得要人聲才好,鋼琴聲轉(zhuǎn)為長笛依然清脆悠揚。
那么,這般音色生成技能從何而來?谷歌科學(xué)家說,DDSP最獨到的地方在于:關(guān)心聲音是如何產(chǎn)生,又是如何被人體感知的。
物體振動的時候,動能和彈性勢能周期性地此起彼伏,就像彈簧振子那樣丨Oleg Alexandrov
世間萬物,都在周期性地振動,這便是聲音的來源。而人類的聽覺,也在漫長的進化中,變得對周期性振動非常敏感。
那么,AI合成器也該重點學(xué)習(xí)周期性振動的特點吧?可當(dāng)代擁有學(xué)習(xí)能力的AI多用神經(jīng)網(wǎng)絡(luò)打造而成,神經(jīng)網(wǎng)絡(luò)很少用到振動的周期性。而用上了這層知識的聲碼器(vocoder)方法,卻因為表達能力不足,又難和神經(jīng)網(wǎng)絡(luò)結(jié)合起來,漸漸被冷落了。
如今,谷歌的科學(xué)家們找到新的方法DDSP,利用了聲音產(chǎn)生和感知的規(guī)律,沒有損傷表達能力,也與當(dāng)代AI融為一體。于是,它登上了機器學(xué)習(xí)頂會ICLR 2020。
魚和熊掌,如何兼得?
首先,既然要利用聲音產(chǎn)生和感知的規(guī)律,團隊想起了角落里被冷落的聲碼器。從前,它主要用來合成人類語音:在人講話的聲波里,有許多周期性的波形,這些周期波便被當(dāng)做基本的聲源信號,被聲碼器分析和利用起來。

聲碼器的合成方法,主要分為加法合成與減法合成。加法,是把許多正弦波合在一起;減法,是從原有聲波里過濾掉一部分,留下的就是結(jié)果。加法比減法的表達能力更強,需要的參數(shù)也更多,因為每個正弦波都有自己隨著時間變化的振幅(音量)和頻率(音高)。

科學(xué)家借用了一種來自1990年的音頻合成模型,把加和減結(jié)合起來。這種方法的加法部分,比其他同類模型擁有更多參數(shù),令表達能力得到了保證;減法部分則濾掉了背景音,讓主角的聲波能得到更好的處理。并且,最后還可以把背景音加回去,讓生成的效果更自然。
更重要的是,每一個模塊都是可微分(differentiable)的,這也是DDSP里第一個D的由來。而一個數(shù)字信號處理(DSP)模型可微分,表示只要投喂某種樂器演奏的音頻,它的訓(xùn)練便能從輸入到輸出一氣呵成;相比之下,每個模塊獨自訓(xùn)練的模型,總體成績未必達到最佳。
心有多大,舞臺就有多大
現(xiàn)在,來感受一下小提琴的訓(xùn)練成果吧。
《名偵探柯南》主題曲哼唱素材來自作者,小提琴音色由AI合成;真人小提琴演奏片段來自Louis Liao,演奏者Carol Lin丨DDSP
仿佛一只熊孩子,修習(xí)小提琴不久,手法不甚嫻熟,還沒完全渡過拉鋸時期。不過,裝飾音倒有幾分調(diào)皮的神采。
練著練著,熊孩子出了一道題。媽媽,你能聽出這是哪句話嗎:
原句語音素材由谷歌娘TTS合成,小提琴音色由AI合成丨DDSP
媽媽深感孺子可教,并獎勵他再練一會兒小號:
《少女終末旅行》插曲與《千與千尋的神隱》主題曲哼唱素材來自作者,小號音色由AI合成丨DDSP
或許氣息還有些不足,但至少不會被媽媽聽出是AI在吹號了(誤)。
以上音頻,都是用DDSP線上試玩版生成的。官方提供了四種樂器,且支持音量和音高調(diào)節(jié)。
除此之外,你也可以自行錄下其他樂音(比如貓叫),投喂給DDSP去學(xué)習(xí)。
說不定哪天,你一開口便能發(fā)出你家主子的聲音,豈不美哉?只待團隊把這口技AI實時化,你就能和主子展開更親切的會談了。

參考文獻
[1] Engel, J., Hantrakul, L., Gu, C., & Roberts, A. (2020). DDSP: Differentiable Digital Signal Processing. arXiv preprint arXiv:2001.04643.
[2] Theunissen, F. E., & Elie, J. E. (2014). Neural processing of natural sounds. Nature Reviews Neuroscience, 15(6), 355-366.
[3] Serra, X., & Smith, J. (1990). Spectral modeling synthesis: A sound analysis/synthesis system based on a deterministic plus stochastic decomposition. Computer Music Journal, 14(4), 12-24.
作者:栗子
編輯:odette
一個AI
你可猜得出那句10字傳世名言?

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




