隨著近年來音視頻生成技術(shù)的不斷發(fā)展,“虛擬主播”逐漸走入人們視野,并以其在虛擬客服、遠程會議、電影剪輯等現(xiàn)實應(yīng)用場景中的重要作用而獲得了社會各界的廣泛關(guān)注。該技術(shù)旨在對輸入的音頻預(yù)測相應(yīng)口型,從而生成指定或任意人物的自然而準(zhǔn)確的面部說話視頻。近日,中科院自動化所智能感知與計算研究中心為此提出了一種新穎的音視頻協(xié)同計算方法,并重點解決了此前難以達成的任意人物協(xié)同生成問題。
該方法一方面實現(xiàn)了利用語音驅(qū)動任意對象的高清視頻生成,另一方面在正臉、側(cè)臉等多種場景下均顯著提升了生成視頻質(zhì)量。目前,該成果已被IJCAI 2020大會接收。
由于音視頻模態(tài)之間差異性等問題,這項技術(shù)目前仍然存在著眾多挑戰(zhàn)。以往的研究方法往往將重點放在了模態(tài)內(nèi)之間,如只關(guān)注了視頻幀之間的損失約束,卻忽略了音視頻模態(tài)間最重要的問題之一:如何將音頻信息高效充分地表達入視頻模態(tài)?同時由于人物與人物之間的個體差異,將同一模型應(yīng)用于任意人物視頻生成也存在較大的挑戰(zhàn)。
為解決上述問題,團隊精心設(shè)計了一個非對稱式互信息估計器(Asymmetric Mutual Information Estimator, AMIE),以構(gòu)建音視頻模態(tài)間的約束。如圖1示,輸入一對音頻與人臉圖像數(shù)據(jù),互信息估計器輸出預(yù)測的互信息值。在這里,該方法使用Jensen-Shannon表示形式來改善互信息計算方式,使其更好地應(yīng)用于神經(jīng)網(wǎng)絡(luò)。通過這樣的互信息估計方式,該方法最大化音頻與視頻模態(tài)之間的互信息,減少音頻向視頻模態(tài)表達的不確定性,并以此獲得音頻和視頻信息之間的跨模態(tài)一致性,使得生成視頻中人物的口型更加準(zhǔn)確自然。
該方法在LRW和GRID基礎(chǔ)數(shù)據(jù)集上進行了實驗驗證。圖2中的結(jié)果表明該方法生成的口型準(zhǔn)確度高,且能夠有效適應(yīng)不同膚色與嘴唇形狀差異。表1的量化結(jié)果顯示該方法在常用的對比指標(biāo)上的優(yōu)越性能。
該方法有能力對不存在于數(shù)據(jù)集中的任意人物進行視頻合成,并能夠有效處理如姿態(tài)表情、性別差異等變化因素(見圖3)。例如,輸入一段女性語音(圖中第二行),該方法分別生成了現(xiàn)實場景的同性別人臉視頻(圖中第一行),和跨性別人臉視頻(圖中第三行)。
責(zé)任編輯:gt
-
音頻
+關(guān)注
關(guān)注
29文章
2903瀏覽量
81951 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4781瀏覽量
101177 -
視頻
+關(guān)注
關(guān)注
6文章
1956瀏覽量
73143
發(fā)布評論請先 登錄
相關(guān)推薦
“國產(chǎn)雙系統(tǒng)”出爐!復(fù)旦微FMQL20SM非對稱AMP:Linux + 裸機
![“國產(chǎn)雙系統(tǒng)”出爐!復(fù)旦微FMQL20SM<b class='flag-5'>非對稱</b>AMP:Linux + 裸機](https://file1.elecfans.com//web3/M00/07/1F/wKgZO2eTKRmAJnBVAABr2eXO1yk488.png)
AFE5808A串并變換之后數(shù)據(jù)錯位,輸出結(jié)果具有不確定性,為什么?
“雙系統(tǒng)”出爐!瑞芯微RK3562J非對稱AMP:Linux+RTOS/裸機
計及多重不確定性的規(guī)模化電動汽車接入配電網(wǎng)調(diào)度方法及解決方案
![計及多重<b class='flag-5'>不確定性</b>的規(guī)模化電動汽車接入配電網(wǎng)調(diào)度方法及解決方案](https://file1.elecfans.com/web2/M00/07/3B/wKgaombj7H6AcwU8AAvCOy0TPk0414.png)
OPA828運放非對稱電源供電有什么好處嗎?
相對于人工的不確定性,機器人碼垛有何優(yōu)勢
ETAS推出Time-Triggered Scheduling (TTS)的確定性調(diào)度解決方案
![ETAS推出Time-Triggered Scheduling (TTS)的<b class='flag-5'>確定性</b>調(diào)度解決方案](https://file1.elecfans.com/web2/M00/DA/73/wKgaomYqGyCAcGHAAAAVp8PIrvw373.png)
什么是嵌入式實時系統(tǒng)的確定性?簡析EDMS中的確定性
![什么是嵌入<b class='flag-5'>式</b>實時系統(tǒng)的<b class='flag-5'>確定性</b>?簡析EDMS中的<b class='flag-5'>確定性</b>](https://file1.elecfans.com/web2/M00/C8/80/wKgZomYcnfiAflQPAAAxzMk9eWg986.png)
單相降壓轉(zhuǎn)換器雙非對稱BG評估板數(shù)據(jù)手冊
![單相降壓轉(zhuǎn)換<b class='flag-5'>器</b>雙<b class='flag-5'>非對稱</b>BG評估板數(shù)據(jù)手冊](https://file1.elecfans.com/web2/M00/C8/6D/wKgZomYbnFyARHH0AAEdZrDDcPk805.png)
單相降壓轉(zhuǎn)換器雙非對稱AG評估板數(shù)據(jù)手冊
![單相降壓轉(zhuǎn)換<b class='flag-5'>器</b>雙<b class='flag-5'>非對稱</b>AG評估板數(shù)據(jù)手冊](https://file1.elecfans.com/web2/M00/C8/6D/wKgZomYbm2KARwX-AAEXKY1oOJE114.png)
海信馬曉龍:堅定長期主義的戰(zhàn)略定力,激發(fā)“確定性”增長的內(nèi)生動力
![海信馬曉龍:堅定長期主義的戰(zhàn)略定力,激發(fā)“<b class='flag-5'>確定性</b>”增長的內(nèi)生動力](https://file1.elecfans.com//web2/M00/C6/26/wKgaomX7q9GAKV6nAACExnq91yg215.jpg)
上海交大科研團隊使用Moku:pro推進在量子光學(xué)實驗中的多參數(shù)估計
![上海交大科研團隊使用Moku:pro推進在量子光學(xué)實驗中的多參數(shù)<b class='flag-5'>估計</b>](https://file.elecfans.com/web2/M00/36/5B/poYBAGIyyjeAWyrMAAAjsb7aVFo114.png)
評論