語(yǔ)音識(shí)別的意思是將人說(shuō)話的內(nèi)容和意思轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列等。與說(shuō)話人的識(shí)別不同,后者主要是識(shí)別和確認(rèn)發(fā)出語(yǔ)音的人而非其中所包含的內(nèi)容。語(yǔ)音識(shí)別的目的就是讓機(jī)器聽(tīng)懂人類口述的語(yǔ)言,包括了兩方面的含義:第一是逐字逐句聽(tīng)懂而不是轉(zhuǎn)化成書(shū)面的語(yǔ)言文字;第二是對(duì)口述語(yǔ)言中所包含的命令或請(qǐng)求加以領(lǐng)會(huì),做出正確回應(yīng),而不僅僅只是拘泥于所有詞匯的正確轉(zhuǎn)換。
自從1952年,AT&TBell實(shí)驗(yàn)室的Davis等人研制了第一個(gè)可十個(gè)英文數(shù)字的特定人語(yǔ)音增強(qiáng)系統(tǒng)一Audry系統(tǒng)1956年,美國(guó)普林斯頓大學(xué)RCA實(shí)驗(yàn)室的Olson和Belar等人研制出能10個(gè)單音節(jié)詞的系統(tǒng),該系統(tǒng)采用帶通濾波器組獲得的頻譜參數(shù)作為語(yǔ)音增強(qiáng)特征。1959年,F(xiàn)ry和Denes等人嘗試構(gòu)建音素器來(lái)4個(gè)元音和9個(gè)輔音,并采用頻譜分析和模式匹配進(jìn)行決策。這就大大提高了語(yǔ)音識(shí)別的效率和準(zhǔn)確度。從此計(jì)算機(jī)語(yǔ)音識(shí)別的受到了各國(guó)科研人員的重視并開(kāi)始進(jìn)入語(yǔ)音識(shí)別的研究。60年代,蘇聯(lián)的Matin等提出了語(yǔ)音結(jié)束點(diǎn)的端點(diǎn)檢測(cè),使語(yǔ)音識(shí)別水平明顯上升;Vintsyuk提出了動(dòng)態(tài)編程,這一提法在以后的識(shí)別中不可或缺。60年代末、70年代初的重要成果是提出了信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),有效地解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)語(yǔ)音匹配問(wèn)題;同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠擺脫鍵盤(pán)的束縛,取而代之的是以語(yǔ)音輸入這樣便于使用的、自然的、人性化的輸入方式,它正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù)。
一:語(yǔ)音識(shí)別技術(shù)發(fā)展現(xiàn)狀-語(yǔ)音識(shí)別系統(tǒng)的分類
語(yǔ)音識(shí)別系統(tǒng)可以根據(jù)對(duì)輸入語(yǔ)音的限制加以分類。如果從說(shuō)話者與識(shí)別系統(tǒng)的相關(guān)性考慮,可以將識(shí)別系統(tǒng)分為三類:
(1)特定人語(yǔ)音識(shí)別系統(tǒng)。僅考慮對(duì)于專人的話音進(jìn)行識(shí)別。
(2)非特定人語(yǔ)音系統(tǒng)。識(shí)別的語(yǔ)音與人無(wú)關(guān),通常要用大量不同人的語(yǔ)音數(shù)據(jù)庫(kù)對(duì)識(shí)別系統(tǒng)進(jìn)行學(xué)習(xí)。
(3)多人的識(shí)別系統(tǒng)。通常能識(shí)別一組人的語(yǔ)音,或者成為特定組語(yǔ)音識(shí)別系統(tǒng),該系統(tǒng)僅要求對(duì)要識(shí)別的那組人的語(yǔ)音進(jìn)行訓(xùn)練。
如果從說(shuō)話的方式考慮,也可以將識(shí)別系統(tǒng)分為三類:
(1)孤立詞語(yǔ)音識(shí)別系統(tǒng)。孤立詞識(shí)別系統(tǒng)要求輸入每個(gè)詞后要停頓。
(2)連接詞語(yǔ)音識(shí)別系統(tǒng)。連接詞輸入系統(tǒng)要求對(duì)每個(gè)詞都清楚發(fā)音,一些連音現(xiàn)象開(kāi)始出現(xiàn)。
(3)連續(xù)語(yǔ)音識(shí)別系統(tǒng)。連續(xù)語(yǔ)音輸入是自然流利的連續(xù)語(yǔ)音輸入,大量連音和變音會(huì)出現(xiàn)。
如果從識(shí)別系統(tǒng)的詞匯量大小考慮,也可以將識(shí)別系統(tǒng)分為三類:
(1)小詞匯量語(yǔ)音識(shí)別系統(tǒng)。通常包括幾十個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。
(2)中等詞匯量的語(yǔ)音識(shí)別系統(tǒng)。通常包括幾百個(gè)詞到上千個(gè)詞的識(shí)別系統(tǒng)。
(3)大詞匯量語(yǔ)音識(shí)別系統(tǒng)。通常包括幾千到幾萬(wàn)個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號(hào)處理器運(yùn)算能力以及識(shí)別系統(tǒng)精度的提高,識(shí)別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分類也不斷進(jìn)行變化。目前是中等詞匯量的識(shí)別系統(tǒng),將來(lái)可能就是小詞匯量的語(yǔ)音識(shí)別系統(tǒng)。這些不同的限制也確定了語(yǔ)音識(shí)別系統(tǒng)的困難度。
二:語(yǔ)音識(shí)別技術(shù)發(fā)展現(xiàn)狀-語(yǔ)音識(shí)別的方法匯總分析
目前具有代表性的語(yǔ)音識(shí)別方法主要有動(dòng)態(tài)時(shí)間規(guī)整技術(shù)(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)等方法。
動(dòng)態(tài)時(shí)間規(guī)整算法(Dynamic Time Warping,DTW)是在非特定人語(yǔ)音識(shí)別中一種簡(jiǎn)單有效的方法,該算法基于動(dòng)態(tài)規(guī)劃的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問(wèn)題,是語(yǔ)音識(shí)別技術(shù)中出現(xiàn)較早、較常用的一種算法。在應(yīng)用DTW算法進(jìn)行語(yǔ)音識(shí)別時(shí),就是將已經(jīng)預(yù)處理和分幀過(guò)的語(yǔ)音測(cè)試信號(hào)和參考語(yǔ)音模板進(jìn)行比較以獲取他們之間的相似度,按照某種距離測(cè)度得出兩模板間的相似程度并選擇最佳路徑。
隱馬爾可夫模型(HMM)是語(yǔ)音信號(hào)處理中的一種統(tǒng)計(jì)模型,是由Markov鏈演變來(lái)的,所以它是基于參數(shù)模型的統(tǒng)計(jì)識(shí)別方法。由于其模式庫(kù)是通過(guò)反復(fù)訓(xùn)練形成的與訓(xùn)練輸出信號(hào)吻合概率最大的最佳模型參數(shù)而不是預(yù)先儲(chǔ)存好的模式樣本,且其識(shí)別過(guò)程中運(yùn)用待識(shí)別語(yǔ)音序列與HMM參數(shù)之間的似然概率達(dá)到最大值所對(duì)應(yīng)的最佳狀態(tài)序列作為識(shí)別輸出,因此是較理想的語(yǔ)音識(shí)別模型。
矢量量化(Vector Quantization)是一種重要的信號(hào)壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語(yǔ)音識(shí)別中。其過(guò)程是將若干個(gè)語(yǔ)音信號(hào)波形或特征參數(shù)的標(biāo)量數(shù)據(jù)組成一個(gè)矢量在多維空間進(jìn)行整體量化。把矢量空間分成若干個(gè)小區(qū)域,每個(gè)小區(qū)域?qū)ふ乙粋€(gè)代表矢量,量化時(shí)落入小區(qū)域的矢量就用這個(gè)代表矢量代替。矢量量化器的設(shè)計(jì)就是從大量信號(hào)樣本中訓(xùn)練出好的碼書(shū),從實(shí)際效果出發(fā)尋找到好的失真測(cè)度定義公式,設(shè)計(jì)出最佳的矢量量化系統(tǒng),用最少的搜索和計(jì)算失真的運(yùn)算量實(shí)現(xiàn)最大可能的平均信噪比。
在實(shí)際的應(yīng)用過(guò)程中,人們還研究了多種降低復(fù)雜度的方法,包括無(wú)記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。
人工神經(jīng)網(wǎng)絡(luò)(ANN)是20世紀(jì)80年代末期提出的一種新的語(yǔ)音識(shí)別方法。其本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)活動(dòng)的原理,具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性,其強(qiáng)大的分類能力和輸入—輸出映射能力在語(yǔ)音識(shí)別中都很有吸引力。其方法是模擬人腦思維機(jī)制的工程模型,它與HMM正好相反,其分類決策能力和對(duì)不確定信息的描述能力得到舉世公認(rèn),但它對(duì)動(dòng)態(tài)時(shí)間信號(hào)的描述能力尚不盡如人意,通常MLP分類器只能解決靜態(tài)模式分類問(wèn)題,并不涉及時(shí)間序列的處理。盡管學(xué)者們提出了許多含反饋的結(jié)構(gòu),但它們?nèi)圆蛔阋钥坍?huà)諸如語(yǔ)音信號(hào)這種時(shí)間序列的動(dòng)態(tài)特性。由于ANN不能很好地描述語(yǔ)音信號(hào)的時(shí)間動(dòng)態(tài)特性,所以常把ANN與傳統(tǒng)識(shí)別方法結(jié)合,分別利用各自優(yōu)點(diǎn)來(lái)進(jìn)行語(yǔ)音識(shí)別而克服HMM和ANN各自的缺點(diǎn)。近年來(lái)結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識(shí)別算法研究取得了顯著進(jìn)展,其識(shí)別率已經(jīng)接近隱含馬爾可夫模型的識(shí)別系統(tǒng),進(jìn)一步提高了語(yǔ)音識(shí)別的魯棒性和準(zhǔn)確率。
支持向量機(jī)(Support vector machine)是應(yīng)用統(tǒng)計(jì)學(xué)理論的一種新的學(xué)習(xí)機(jī)模型,采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理(Structural Risk Minimization,SRM),有效克服了傳統(tǒng)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化方法的缺點(diǎn)。兼顧訓(xùn)練誤差和泛化能力,在解決小樣本、非線性及高維模式識(shí)別方面有許多優(yōu)越的性能,已經(jīng)被廣泛地應(yīng)用到模式識(shí)別領(lǐng)域。
三:語(yǔ)音識(shí)別技術(shù)發(fā)展現(xiàn)狀-國(guó)外研究
語(yǔ)音識(shí)別的研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。
但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開(kāi)展研究則是在60年代末70年代初。這首先是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展為語(yǔ)音識(shí)別的實(shí)現(xiàn)提供了硬件和軟件的可能,更重要的是語(yǔ)音信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)的提出,有效的解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)匹配問(wèn)題。這一時(shí)期的語(yǔ)音識(shí)別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識(shí)別,實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立詞語(yǔ)音識(shí)別系統(tǒng);同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
隨著應(yīng)用領(lǐng)域的擴(kuò)大,小詞匯表、特定人、孤立詞等這些對(duì)語(yǔ)音識(shí)別的約束條件需要放寬,與此同時(shí)也帶來(lái)了許多新的問(wèn)題:第一,詞匯表的擴(kuò)大使得模板的選取和建立發(fā)生困難;第二,連續(xù)語(yǔ)音中,各個(gè)音素、音節(jié)以及詞之間沒(méi)有明顯的邊界,各個(gè)發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音(Co-articulation)現(xiàn)象;第三,非特定人識(shí)別時(shí),不同的人說(shuō)相同的話相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時(shí)間、生理、心理狀態(tài)下,說(shuō)同樣內(nèi)容的話也會(huì)有很大的差異;第四,識(shí)別的語(yǔ)音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。
實(shí)驗(yàn)室語(yǔ)音識(shí)別研究的巨大突破產(chǎn)生于20世紀(jì)80年代末:人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語(yǔ)音和非特定人這三大障礙,第一次把這三個(gè)特性都集成在一個(gè)系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué)(CarnegieMellonUniversity)的Sphinx系統(tǒng),它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)。
這一時(shí)期,語(yǔ)音識(shí)別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識(shí),從而使統(tǒng)計(jì)方法成為了語(yǔ)音識(shí)別技術(shù)的主流。
統(tǒng)計(jì)方法將研究者的視線從微觀轉(zhuǎn)向宏觀,不再刻意追求語(yǔ)音特征的細(xì)化,而是更多地從整體平均(統(tǒng)計(jì))的角度來(lái)建立最佳的語(yǔ)音識(shí)別系統(tǒng)。在聲學(xué)模型方面,以Markov鏈為基礎(chǔ)的語(yǔ)音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語(yǔ)音信號(hào)短時(shí)穩(wěn)定、長(zhǎng)時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語(yǔ)音的句子模型,達(dá)到了比較高的建模精度和建模靈活性。在語(yǔ)言層面上,通過(guò)統(tǒng)計(jì)真實(shí)大規(guī)模語(yǔ)料的詞之間同現(xiàn)概率即N元統(tǒng)計(jì)模型來(lái)區(qū)分識(shí)別帶來(lái)的模糊音和同音詞。另外,人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語(yǔ)言處理機(jī)制等也在語(yǔ)音識(shí)別中得到了應(yīng)用。
20世紀(jì)90年代前期,許多著名的大公司如IBM、蘋(píng)果、AT&T和NTT都對(duì)語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。語(yǔ)音識(shí)別技術(shù)有一個(gè)很好的評(píng)估機(jī)制,那就是識(shí)別的準(zhǔn)確率,而這項(xiàng)指標(biāo)在20世紀(jì)90年代中后期實(shí)驗(yàn)室研究中得到了不斷的提高。比較有代表性的系統(tǒng)有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform語(yǔ)音平臺(tái),Microsoft的Whisper,Sun的VoiceTone等。
其中IBM公司于1997年開(kāi)發(fā)出漢語(yǔ)ViaVoice語(yǔ)音識(shí)別系統(tǒng),次年又開(kāi)發(fā)出可以識(shí)別上海話、廣東話和四川話等地方口音的語(yǔ)音識(shí)別系統(tǒng)ViaVoice‘98。它帶有一個(gè)32,000詞的基本詞匯表,可以擴(kuò)展到65,000詞,還包括辦公常用詞條,具有“糾錯(cuò)機(jī)制”,其平均識(shí)別率可以達(dá)到95%。該系統(tǒng)對(duì)新聞?wù)Z音識(shí)別具有較高的精度,是目前具有代表性的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)。
四:語(yǔ)音識(shí)別技術(shù)發(fā)展現(xiàn)狀-國(guó)內(nèi)研究
我國(guó)語(yǔ)音識(shí)別研究工作起步于五十年代,但近年來(lái)發(fā)展很快。研究水平也從實(shí)驗(yàn)室逐步走向?qū)嵱谩?987年開(kāi)始執(zhí)行國(guó)家863計(jì)劃后,國(guó)家863智能計(jì)算機(jī)專家組為語(yǔ)音識(shí)別技術(shù)研究專門(mén)立項(xiàng),每?jī)赡隄L動(dòng)一次。我國(guó)語(yǔ)音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國(guó)外同步,在漢語(yǔ)語(yǔ)音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢(shì),并達(dá)到國(guó)際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國(guó)科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過(guò)語(yǔ)音識(shí)別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室。
清華大學(xué)電子工程系語(yǔ)音技術(shù)與專用芯片設(shè)計(jì)課題組,研發(fā)的非特定人漢語(yǔ)數(shù)碼串連續(xù)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度,達(dá)到94.8%(不定長(zhǎng)數(shù)字串)和96.8%(定長(zhǎng)數(shù)字串)。在有5%的拒識(shí)率情況下,系統(tǒng)識(shí)別率可以達(dá)到96.9%(不定長(zhǎng)數(shù)字串)和98.7%(定長(zhǎng)數(shù)字串),這是目前國(guó)際最好的識(shí)別結(jié)果之一,其性能已經(jīng)接近實(shí)用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率達(dá)到98.73%,前三選識(shí)別率達(dá)99.96%;并且可以識(shí)別普通話與四川話兩種語(yǔ)言,達(dá)到實(shí)用要求。
中科院自動(dòng)化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計(jì)算平臺(tái)和應(yīng)用的“天語(yǔ)”中文語(yǔ)音系列產(chǎn)品——PattekASR,結(jié)束了中文語(yǔ)音識(shí)別產(chǎn)品自1998年以來(lái)一直由國(guó)外公司壟斷的歷史。
五:語(yǔ)音識(shí)別技術(shù)發(fā)展現(xiàn)狀-當(dāng)前亟待解決的問(wèn)題
語(yǔ)音識(shí)別系統(tǒng)的性能受到許多因素的影響,包括不同說(shuō)話人的發(fā)音方式、說(shuō)話方式、環(huán)境噪音、傳輸信道衰落等等。
具體要解決的問(wèn)題有四點(diǎn):
①增強(qiáng)系統(tǒng)的魯棒性,也就是說(shuō)如果條件狀況變得與訓(xùn)練時(shí)很不相同,系統(tǒng)的性能下降不能是突變的。
②增加系統(tǒng)的適應(yīng)能力,系統(tǒng)要能穩(wěn)定連續(xù)的適應(yīng)條件的變化,因?yàn)檎f(shuō)話人存在著年齡、性別、口音、語(yǔ)速、語(yǔ)音強(qiáng)度、發(fā)音習(xí)慣等方面的差異。所以,系統(tǒng)應(yīng)該有能力排除掉這些差異。達(dá)到對(duì)語(yǔ)音的穩(wěn)定識(shí)別。
③尋求更好的語(yǔ)言模型,系統(tǒng)應(yīng)該在語(yǔ)言模型中得到盡可能多的約束,從而解決由于詞匯量增長(zhǎng)所帶來(lái)的影響。
④進(jìn)行動(dòng)力學(xué)建模,語(yǔ)音識(shí)別系統(tǒng)提前假定片段和單詞是相互獨(dú)立的,但實(shí)際上詞匯和音素的線索要求對(duì)反映了發(fā)聲器官運(yùn)動(dòng)模型特點(diǎn)的整合。所以,應(yīng)該進(jìn)行動(dòng)力學(xué)建模,從而將這些信息整合到語(yǔ)音識(shí)別系統(tǒng)中去。
六:語(yǔ)音識(shí)別技術(shù)發(fā)展現(xiàn)狀-語(yǔ)音識(shí)別系統(tǒng)的最新發(fā)展
語(yǔ)音識(shí)別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語(yǔ)音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在西方經(jīng)濟(jì)發(fā)達(dá)國(guó)家,大量的語(yǔ)音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶交換機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語(yǔ)音識(shí)別撥號(hào)功能、語(yǔ)音記事本、語(yǔ)音智能玩具等產(chǎn)品,同時(shí)也包括語(yǔ)音識(shí)別與語(yǔ)音合成功能。人們可以通過(guò)電話網(wǎng)絡(luò)用語(yǔ)音識(shí)別口語(yǔ)對(duì)話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息。調(diào)查統(tǒng)計(jì)表明,多達(dá)85%以上的人對(duì)語(yǔ)音識(shí)別的信息查詢服務(wù)系統(tǒng)的性能表示滿意。可以預(yù)測(cè),在近5年內(nèi),語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛,各種各樣的語(yǔ)音識(shí)別系統(tǒng)產(chǎn)品將不斷出現(xiàn)在市場(chǎng)上。語(yǔ)音識(shí)別技術(shù)在人工郵件分揀中的作用也日益顯現(xiàn),發(fā)展前景誘人。一些發(fā)達(dá)國(guó)家的郵政部門(mén)已經(jīng)使用了這一系統(tǒng),語(yǔ)音識(shí)別技術(shù)逐漸成為郵件分揀的新技術(shù)。它可以克服手工分揀單純依靠分揀員記憶力的不足,解決人員成本過(guò)高的問(wèn)題,提高郵件處理的效率和效益。就教育領(lǐng)域來(lái)講,語(yǔ)音識(shí)別技術(shù)的最直接的應(yīng)用就是幫助用戶更好地練習(xí)語(yǔ)言技巧。
語(yǔ)音識(shí)別技術(shù)的另一個(gè)發(fā)展分支就是電話語(yǔ)音識(shí)別技術(shù)的發(fā)展,貝爾實(shí)驗(yàn)室是這方面的先驅(qū),電話語(yǔ)音識(shí)別技術(shù)將能夠?qū)崿F(xiàn)電話查詢、自動(dòng)接線以及一些專門(mén)業(yè)務(wù)如旅游信息等的操作。銀行應(yīng)用了語(yǔ)音理解技術(shù)的聲訊查詢系統(tǒng)后,可不分晝夜地為客戶提供二十四小時(shí)的電話銀行理財(cái)服務(wù)。而證券業(yè)方面,若是采用電話語(yǔ)音識(shí)別聲訊系統(tǒng)的話,用戶想查詢行情便可以直接講出股票名稱或代碼,而系統(tǒng)確認(rèn)用戶的要求后,會(huì)自動(dòng)讀出最新的股票價(jià),這將大大方便用戶。目前在114查號(hào)臺(tái)還有大量的人工服務(wù),如果采用語(yǔ)音技術(shù),就可讓計(jì)算機(jī)自動(dòng)接聽(tīng)用戶的需要,然后回放查詢的電話號(hào)碼,從而節(jié)約了人力資源。
評(píng)論