那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

設(shè)計非對稱式互信息估計器減少音頻向視頻模態(tài)表達的不確定性

牽手一起夢 ? 來源:中科院自動化 ? 作者:佚名 ? 2020-05-09 14:51 ? 次閱讀

隨著近年來音視頻生成技術(shù)的不斷發(fā)展,“虛擬主播”逐漸走入人們視野,并以其在虛擬客服、遠程會議、電影剪輯等現(xiàn)實應(yīng)用場景中的重要作用而獲得了社會各界的廣泛關(guān)注。該技術(shù)旨在對輸入的音頻預(yù)測相應(yīng)口型,從而生成指定或任意人物的自然而準(zhǔn)確的面部說話視頻。近日,中科院自動化所智能感知與計算研究中心為此提出了一種新穎的音視頻協(xié)同計算方法,并重點解決了此前難以達成的任意人物協(xié)同生成問題。

該方法一方面實現(xiàn)了利用語音驅(qū)動任意對象的高清視頻生成,另一方面在正臉、側(cè)臉等多種場景下均顯著提升了生成視頻質(zhì)量。目前,該成果已被IJCAI 2020大會接收。

由于音視頻模態(tài)之間差異性等問題,這項技術(shù)目前仍然存在著眾多挑戰(zhàn)。以往的研究方法往往將重點放在了模態(tài)內(nèi)之間,如只關(guān)注了視頻幀之間的損失約束,卻忽略了音視頻模態(tài)間最重要的問題之一:如何將音頻信息高效充分地表達入視頻模態(tài)?同時由于人物與人物之間的個體差異,將同一模型應(yīng)用于任意人物視頻生成也存在較大的挑戰(zhàn)。

為解決上述問題,團隊精心設(shè)計了一個非對稱式互信息估計器(Asymmetric Mutual Information Estimator, AMIE),以構(gòu)建音視頻模態(tài)間的約束。如圖1示,輸入一對音頻與人臉圖像數(shù)據(jù),互信息估計器輸出預(yù)測的互信息值。在這里,該方法使用Jensen-Shannon表示形式來改善互信息計算方式,使其更好地應(yīng)用于神經(jīng)網(wǎng)絡(luò)。通過這樣的互信息估計方式,該方法最大化音頻與視頻模態(tài)之間的互信息,減少音頻向視頻模態(tài)表達的不確定性,并以此獲得音頻和視頻信息之間的跨模態(tài)一致性,使得生成視頻中人物的口型更加準(zhǔn)確自然。

設(shè)計非對稱式互信息估計器減少音頻向視頻模態(tài)表達的不確定性

該方法在LRW和GRID基礎(chǔ)數(shù)據(jù)集上進行了實驗驗證。圖2中的結(jié)果表明該方法生成的口型準(zhǔn)確度高,且能夠有效適應(yīng)不同膚色與嘴唇形狀差異。表1的量化結(jié)果顯示該方法在常用的對比指標(biāo)上的優(yōu)越性能。

該方法有能力對不存在于數(shù)據(jù)集中的任意人物進行視頻合成,并能夠有效處理如姿態(tài)表情、性別差異等變化因素(見圖3)。例如,輸入一段女性語音(圖中第二行),該方法分別生成了現(xiàn)實場景的同性別人臉視頻(圖中第一行),和跨性別人臉視頻(圖中第三行)。

責(zé)任編輯:gt

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 音頻
    +關(guān)注

    關(guān)注

    29

    文章

    2903

    瀏覽量

    81951
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4781

    瀏覽量

    101177
  • 視頻
    +關(guān)注

    關(guān)注

    6

    文章

    1956

    瀏覽量

    73143
收藏 人收藏

    評論

    相關(guān)推薦

    “國產(chǎn)雙系統(tǒng)”出爐!復(fù)旦微FMQL20SM非對稱AMP:Linux + 裸機

    Linux + RTOS/裸機,但需一個主核心來控制整個系統(tǒng)以及其它從核心。每個處理核心相互隔離,擁有屬于自己的內(nèi)存,既可各自獨立運行不同的任務(wù),又可多個核心之間進行核間通信。 圖 1 FMQL20SM AMP異構(gòu)多核框架示意圖 “非對稱 AMP” 對工業(yè)的重大意義 更
    的頭像 發(fā)表于 01-24 13:46 ?113次閱讀
    “國產(chǎn)雙系統(tǒng)”出爐!復(fù)旦微FMQL20SM<b class='flag-5'>非對稱</b>AMP:Linux + 裸機

    AFE5808A串并變換之后數(shù)據(jù)錯位,輸出結(jié)果具有不確定性,為什么?

    AFE5808A串并變換之后數(shù)據(jù)錯位,輸出結(jié)果具有不確定性,求問可能的原因有哪些?
    發(fā)表于 01-01 07:23

    “雙系統(tǒng)”出爐!瑞芯微RK3562J非對稱AMP:Linux+RTOS/裸機

    非對稱AMP”雙系統(tǒng)的應(yīng)用領(lǐng)域 隨著對嵌入系統(tǒng)要求的不斷提高,非對稱AMP架構(gòu)如今已成為一種新選擇,主要應(yīng)用于工業(yè)領(lǐng)域,如工業(yè)PLC、運動控制、機器人控制
    發(fā)表于 11-21 16:44

    科技云報到:數(shù)字化轉(zhuǎn)型,從不確定性確定性的關(guān)鍵路徑

    科技云報到:數(shù)字化轉(zhuǎn)型,從不確定性確定性的關(guān)鍵路徑
    的頭像 發(fā)表于 11-16 16:52 ?399次閱讀
    科技云報到:數(shù)字化轉(zhuǎn)型,從<b class='flag-5'>不確定性</b>到<b class='flag-5'>確定性</b>的關(guān)鍵路徑

    計及多重不確定性的規(guī)模化電動汽車接入配電網(wǎng)調(diào)度方法及解決方案

    摘要:規(guī)模日益增長的電動汽車和可再生能源帶來的不確定性給配電網(wǎng)的安全運營帶來了嚴(yán)峻挑戰(zhàn)。為綜合考慮多重不確定性、平衡運營成本與系統(tǒng)可靠性,首先,提出一種基于分布魯棒聯(lián)合機會約束的電動汽車-配電網(wǎng)
    的頭像 發(fā)表于 09-14 15:26 ?438次閱讀
    計及多重<b class='flag-5'>不確定性</b>的規(guī)模化電動汽車接入配電網(wǎng)調(diào)度方法及解決方案

    OPA828運放非對稱電源供電有什么好處嗎?

    看到一些精密儀器的電路運放好像特意設(shè)計成非對稱電源供電,比如+14v、-17v這種,請問運放非對稱電源供電有什么好處嗎?信號擺幅不超過正負7v
    發(fā)表于 08-01 06:48

     相對于人工的不確定性,機器人碼垛有何優(yōu)勢

    ?在現(xiàn)代工業(yè)生產(chǎn)中,碼垛是一項至關(guān)重要的任務(wù),它涉及到將不同形狀、大小和重量的物品進行有序地堆疊,以便于后續(xù)的運輸和儲存。然而,傳統(tǒng)的人工碼垛方式存在著諸多不確定性,這些不確定性可能源自工人的疲勞
    的頭像 發(fā)表于 06-19 14:45 ?298次閱讀

    ETAS推出Time-Triggered Scheduling (TTS)的確定性調(diào)度解決方案

    在2024年2月26日,ETAS推出了名為“Time-Triggered Scheduling (TTS)”的確定性調(diào)度解決方案。
    的頭像 發(fā)表于 04-25 16:56 ?3078次閱讀
    ETAS推出Time-Triggered Scheduling (TTS)的<b class='flag-5'>確定性</b>調(diào)度解決方案

    什么是嵌入實時系統(tǒng)的確定性?簡析EDMS中的確定性

    ETAS Deterministic Middleware Solution點擊跳轉(zhuǎn)(EDMS,前身為AOS) 確定性中間件解決方案,是一個中間件框架,旨在面向汽車領(lǐng)域內(nèi)應(yīng)用程序的獨特挑戰(zhàn)和需求
    的頭像 發(fā)表于 04-15 11:22 ?1311次閱讀
    什么是嵌入<b class='flag-5'>式</b>實時系統(tǒng)的<b class='flag-5'>確定性</b>?簡析EDMS中的<b class='flag-5'>確定性</b>

    單相降壓轉(zhuǎn)換非對稱BG評估板數(shù)據(jù)手冊

    電子發(fā)燒友網(wǎng)站提供《單相降壓轉(zhuǎn)換非對稱BG評估板數(shù)據(jù)手冊.rar》資料免費下載
    發(fā)表于 04-14 17:10 ?0次下載
    單相降壓轉(zhuǎn)換<b class='flag-5'>器</b>雙<b class='flag-5'>非對稱</b>BG評估板數(shù)據(jù)手冊

    單相降壓轉(zhuǎn)換非對稱AG評估板數(shù)據(jù)手冊

    電子發(fā)燒友網(wǎng)站提供《單相降壓轉(zhuǎn)換非對稱AG評估板數(shù)據(jù)手冊.rar》資料免費下載
    發(fā)表于 04-14 17:02 ?0次下載
    單相降壓轉(zhuǎn)換<b class='flag-5'>器</b>雙<b class='flag-5'>非對稱</b>AG評估板數(shù)據(jù)手冊

    海信馬曉龍:堅定長期主義的戰(zhàn)略定力,激發(fā)“確定性”增長的內(nèi)生動力

    近年來,在內(nèi)外因疊加影響下,智慧交通行業(yè)充滿了變數(shù)。當(dāng)不確定性成為常態(tài),如何驅(qū)散迷霧走向增長?這是每一個智慧交通企業(yè)必須解決的難題。 選擇用什么答案來面對這個難題,決定了企業(yè)迎戰(zhàn)風(fēng)浪的命運,海信智慧
    的頭像 發(fā)表于 03-21 11:38 ?358次閱讀
    海信馬曉龍:堅定長期主義的戰(zhàn)略定力,激發(fā)“<b class='flag-5'>確定性</b>”增長的內(nèi)生動力

    華玉通軟宣布“海鷗”確定性調(diào)度中間件(SEAGULL DS)正式商用

    今天,華玉通軟(下稱“華玉”)宣布“海鷗”確定性調(diào)度中間件(SEAGULL DS)正式商用。
    的頭像 發(fā)表于 03-17 11:01 ?744次閱讀
    華玉通軟宣布“海鷗”<b class='flag-5'>確定性</b>調(diào)度中間件(SEAGULL DS)正式商用

    上海交大科研團隊使用Moku:pro推進在量子光學(xué)實驗中的多參數(shù)估計

    幾乎每個對物理學(xué)稍有興趣的人都聽說過海森堡不確定性原理。其最著名的假設(shè)同時涉及到粒子動量和位置的基本不確定性,即不確定性的乘積有一個下限:提高對一個值的測量精度通常會降低對另一個值的精度。縱使接近
    的頭像 發(fā)表于 02-19 14:00 ?542次閱讀
    上海交大科研團隊使用Moku:pro推進在量子光學(xué)實驗中的多參數(shù)<b class='flag-5'>估計</b>

    為什么三相短路是對稱故障?單相短路是非對稱故障呢?

    為什么三相短路是對稱故障?單相短路是非對稱故障呢? 三相短路是對稱故障,而單相短路是非對稱故障,其根本原因在于電網(wǎng)中的相量關(guān)系和電壓分布。 首先,
    的頭像 發(fā)表于 02-18 11:41 ?4358次閱讀
    百家乐官网赌场娱乐城| 哪里有百家乐官网代理| 姚记娱乐城信誉最好| 全讯网3344111| 百家乐的弱点| 百家乐路子分| 送58百家乐的玩法技巧和规则| 百家乐官网正品| 24向山九宫格图| 百家乐注册开户| 百家乐定位膽技巧| 注册百家乐送彩金 | 百家乐怎样概率大| 百家乐固定打法| 百家乐路纸计算| 百家乐佣金计算| 百家乐平注法是什么| 百家乐赌博现金网平台排名| 百家乐如何抽千| 致胜百家乐的玩法技巧和规则| 凤凰百家乐的玩法技巧和规则 | e世博线上娱乐| 百家乐官网翻天qvod粤语| 大地百家乐官网的玩法技巧和规则 | V博百家乐的玩法技巧和规则| 超级老虎机系统| 豪门娱乐| 百家乐官网二十一点| 百家乐视频交友| 高尔夫百家乐的玩法技巧和规则 | 百家乐园能贷款吗| 百家乐官网平注赢钱法| 百家乐投注技巧建议| 威尼斯人娱乐城吃饭| 保靖县| 百家乐官网拍照看| 免费百家乐缩水工具| 天上人间娱乐城| 百家乐官网赌场娱乐城大全| 百家乐怎赌才赢钱| 六合彩最快开奖|