隨著科學(xué)技術(shù)的發(fā)展,語音作為新一代人機交互方式,成為人和智能設(shè)備、語音助手交流的重要接口,然而在真實環(huán)境中,語音信號不可避免的被各種噪聲所干擾,除了各種環(huán)境噪聲,聲波在封閉空間中的衰減和延時反射所引起的混響等都會影響語音的感知質(zhì)量,研究者將真實場景下影響語音質(zhì)量的因素總結(jié)為三個方面:環(huán)境噪聲、房間混響和其他說話人干擾,語音增強的目的就是消除上述三個方面的影響。語音增強是指利用音頻信號處理的技術(shù)以及算法提高失真語音信號的整體感知質(zhì)量或者可懂度。
語音去噪
深度學(xué)習(xí)在語音降噪中的應(yīng)用廣泛,根據(jù)處理語音的通道數(shù)不同,可以分為單通道降噪和多通道降噪,其中單通道語音的去噪由俄亥俄州立大學(xué)的汪德亮團隊提出的基于DNN-SVM算法,后來又相繼提出CRNN、DP-SARNN和Transformer等算法,Zhang等人[1]人提出了雙分支神經(jīng)網(wǎng)絡(luò)DBNet同時在時域和頻域上解決語音增強的問題。而深度學(xué)習(xí)在多通道語音增強中常常結(jié)合空間信息或者傳統(tǒng)算法例如波束形成等實現(xiàn)去噪,例如具有代表性算法的基于掩蔽的波束形成技術(shù)[2]。利用深度學(xué)習(xí)進行語音去的算法一般包括非端到端語音降噪方法和端到端語音降噪算法。其中非端到端語音降噪的算法常用的處理方式有基于掩膜的方法和基于特征映射的方法。
基于深度學(xué)習(xí)非端到端語音去噪方法框圖
基于深度學(xué)習(xí)端到端語音去噪算法框圖
基于掩膜的語音增強
基于時頻掩蔽的語音增強方法將描述純凈語音與噪聲之間相互關(guān)系的時頻掩蔽作為學(xué)習(xí)目標(biāo),該方法假設(shè)純凈語音信號與噪聲之間有一定的獨立性,理想二值掩蔽(Ideal Binary Mask,IBM)是最初被引入語音增強的時頻掩蔽方法,該掩蔽方法通過判斷某個時頻單元內(nèi)語音與噪聲主導(dǎo)情況將連續(xù)的時頻單元離散化為0或1兩種狀態(tài),IBM公式如下所示:
通過IBM的公式可以看出只有0、1兩種取值,可以一定程度提高語音質(zhì)量,但這種方法對于帶噪語音的處理過于簡單粗暴,會在處理過程中引入較大的噪聲。
基于語音和噪聲獨立假設(shè)的情況下,基于比值掩蔽的方法刻畫了時頻單元內(nèi)純凈語音能量和帶噪語音能量的比值,該類掩蔽方法中常用的有理想比值掩蔽(Ideal Ratio Mask,IRM)。IRM相較于IBM從離散的狀態(tài)值變?yōu)檫B續(xù)的狀態(tài)值,相較之下可以有效的提升語音的質(zhì)量和可懂度,但是缺點是利用帶噪語音的相位信息對純凈語音進行了重構(gòu)。
除了上述兩種掩蔽方法,仍然有許多的掩蔽方法,例如基于信號能量比值的理想幅度掩蔽(Ideal Amplitude Mask,IAM),考慮相位誤差的時頻掩蔽方法的相位敏感掩蔽(Phase Sensitive Mask,PSM),廣泛應(yīng)用的復(fù)數(shù)域的復(fù)數(shù)理想比率掩蔽(Complex Ideal Ratio Mask,cIRM)以及最佳比例掩膜(Optimal Ratio Mask,ORM)等等。這些掩蔽根據(jù)語音以及噪聲的幅度譜或者功率譜計算獲得,通過網(wǎng)絡(luò)計算得到估計掩蔽后,將帶噪語音信號與時頻掩蔽相乘得到純凈語音信號,進而得到干凈語音的時域波形。
基于特征映射的方法
基于特征映射的語音增強方法是通過網(wǎng)絡(luò)完成帶噪語音特征和干凈語音特征之間的映射關(guān)系,常見的特征映射包括目標(biāo)幅度譜(TMS)、短時傅里葉變換幅度譜(STFT)等,通過帶噪語音估計純凈語音特征,將得到的譜圖與帶噪語音相位結(jié)合,從而得到語音波形。另外聲學(xué)特征也可以被用作特征映射深度學(xué)習(xí)的目標(biāo),例如Chen等人[3]探索了低信噪比下已經(jīng)被用作語音分離和語音增強的一系列特征的表現(xiàn),包括了Mel域特征中的MFCC和DSCC,線性預(yù)測特征中的PLP特征和RASTA-PLP特征,gamma域中的GF特征、GFCC特征和GFMC特征,信號自相關(guān)域中的RAS-MFCC特征、AC-MFCC特征和PAC-MFCC特征,調(diào)制域中的GFB特征和AMS特征等。Wang等人[4]提出一種單聲道和多聲道語音增強的復(fù)數(shù)頻譜映射方法,利用DNN從帶噪信號中預(yù)測純凈語音的實部和虛部,并融合波束形成算法得到在 CHiME-4語音數(shù)據(jù)集上WER較好的性能提升。
基于端到端的方法
監(jiān)督語音增強大部分是在時頻域進行的,端到端的語音增強對原始時域波形信號直接進行處理,由于不依賴于頻域表示,避免了語音相位信息的丟失以及重構(gòu)增強語音時使用帶噪語音相位可能導(dǎo)致的性能下降問題,使得模型流程簡化。Ritwik Giri等人[5]提出了帶有注意力機制的U-Net應(yīng)用于語音增強,在VCTK數(shù)據(jù)集上測試多信噪比情況下PESQ、SSNR等評價指標(biāo)都得到了提升。
語音去混響
混響語音為信號和房間沖激響應(yīng)(Room Impulse Response,RIR)的卷積,這會使得語音信號在時域和頻域都發(fā)生畸變,導(dǎo)致語音可懂度的下降。利用深度學(xué)習(xí)的混響消除算法包括三類算法,直接預(yù)測、間接預(yù)測和聯(lián)合傳統(tǒng)算法。
直接預(yù)測的方法為混響語音信號直接映射到純凈語音信號,間接預(yù)測的方法例如可以通過預(yù)測后期混響信號間接性得到目標(biāo)語音信號,聯(lián)合傳統(tǒng)算法為將DNN與WPE等算法進行結(jié)合,通過網(wǎng)絡(luò)預(yù)測WPE算法中間參數(shù)從而去除迭代計算的操作。Han等人[6]在2014年首先提出了基于DNN的語音去混響方法,這種方法在耳蝸圖上使用譜映射,DNN被訓(xùn)練成從混響語音幀映射到干凈語音幀。Zhao等人[7]通過LSTM預(yù)測語音信號晚期混響間接得到目標(biāo)語音信號,Kinoshita K[8]通過LSTM網(wǎng)絡(luò)預(yù)測WPE算法中的中間參數(shù)進而實現(xiàn)混響消除。
語音增強作為語音識別中的一項核心關(guān)鍵技術(shù),廣泛應(yīng)用在各種場景之中,國內(nèi)外研究人員針對語音增強提出了許多算法,深度學(xué)習(xí)的廣泛應(yīng)用也為來研究領(lǐng)域帶來了新的突破,但是語音增強領(lǐng)域仍然有許多問題,例如泛化性能、相位失真問題和低信噪比下的應(yīng)用效果不理想,未來的語音增強仍然充滿挑戰(zhàn)。
審核編輯:湯梓紅
-
人機交互
+關(guān)注
關(guān)注
12文章
1217瀏覽量
55531 -
噪聲
+關(guān)注
關(guān)注
13文章
1125瀏覽量
47517 -
SVM
+關(guān)注
關(guān)注
0文章
154瀏覽量
32540 -
語音增強
+關(guān)注
關(guān)注
0文章
12瀏覽量
8777 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5513瀏覽量
121546
原文標(biāo)題:深度學(xué)習(xí)在語音增強中的應(yīng)用
文章出處:【微信號:硬件設(shè)計技術(shù),微信公眾號:硬件設(shè)計技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論