對嬰兒來說,啼哭聲是一種通訊的方式,一個(gè)非常有限、但類似成年人進(jìn)行交流的方式。它也是一種生物報(bào)警器,向外界傳達(dá)著嬰兒生理和心理的需求。 基于啼哭聲聲波攜帶的信息,嬰兒的身體狀況才能被確定,疾病才能被檢測出來。因此,有效辨識(shí)啼哭聲,成功地將嬰兒啼哭聲“翻譯”成“成人語言”,讓成年人讀懂啼哭聲的含義,有重大的實(shí)際意義。 2020 iFLYTEK A.I.開發(fā)者大賽中,有一項(xiàng)關(guān)于嬰兒啼哭聲識(shí)別的挑戰(zhàn)賽任務(wù)。本次競賽總共吸引了678只隊(duì)伍參賽,分別來自國內(nèi)不同的公司和高校。最終小米AI實(shí)驗(yàn)室聲學(xué)團(tuán)隊(duì)以0.99123分的高分奪得第一名。
比賽的訓(xùn)練數(shù)據(jù)集包含了awake(蘇醒)、diaper(換尿布)、hug(要抱抱)、hungry(饑餓)、sleepy(困乏)和uncomfortable(不舒服)六類哭聲,并且人工添加了來自Noisex-92標(biāo)準(zhǔn)數(shù)據(jù)庫的噪聲。 這項(xiàng)任務(wù)旨在判別嬰兒啼哭聲所傳遞的信息,需要分別在簡單噪聲環(huán)境和復(fù)雜噪聲環(huán)境下對嬰兒啼哭進(jìn)行識(shí)別,判斷容易引起混淆的啼哭聲,分析各類啼哭聲的明顯特征及簡單直接的判別方式。 初賽訓(xùn)練數(shù)據(jù)包含918條音頻,測試集包含228條。復(fù)賽賽方提供了添加不同噪聲的30294條訓(xùn)練數(shù)據(jù),需對7524條測試音頻進(jìn)行識(shí)別。
嬰兒啼哭比賽背后的技術(shù)原理 小米AI實(shí)驗(yàn)室聲學(xué)團(tuán)隊(duì)借鑒說話人確認(rèn)的方法,訓(xùn)練網(wǎng)絡(luò)使得vector的余弦距在離類間間距拉大而類內(nèi)間距減小。 在模型的訓(xùn)練過程中,首先使用VAD算法對嬰兒啼哭音頻中的靜音部分進(jìn)行剔除。去除靜音后隨機(jī)選取160幀,不足160幀的語音采用Cycle Padding方式,利用中間特征進(jìn)行循環(huán)填充,相比與傳統(tǒng)的補(bǔ)0或用尾部填充的方式,特征更加豐富。 模型采用3 層 LSTM+256Dense 層,每層節(jié)點(diǎn)為 512。初賽訓(xùn)練集中的所有純凈語音均看作 enroll 語料,所有訓(xùn)練集中每個(gè)類別的 embedding 由該類別中的所有語音過模型求整體平均得到。測試集中的每條語音過模型后得到的 embedding與 enroll 中的每類 embedding 求余弦距離,分?jǐn)?shù)對應(yīng)最高的類別為預(yù)測類別。 訓(xùn)練策略為:首先迭代第一個(gè) 5000 次,學(xué)習(xí)率設(shè)置為 1e-3,第二次加載預(yù)訓(xùn)練模型(mAp 分?jǐn)?shù)高的),調(diào)整學(xué)習(xí)率,再迭代 5000 次,最終交叉加載預(yù)訓(xùn)練模型在不同的 part 上訓(xùn)練。
模型的選擇和推理過程分為以下4個(gè)步驟:
測試集統(tǒng)計(jì)分析:首先統(tǒng)計(jì)測試集語音的信噪比、時(shí)長、靜音占比及語音相似度。通過對比分析,對相似數(shù)據(jù)進(jìn)行歸類,選取最高信噪比數(shù)據(jù)進(jìn)行預(yù)測。
模型選擇:在 5 個(gè)訓(xùn)練集上分別擇優(yōu)選取 2 個(gè)模型作為備用。
推理:計(jì)算測試語料經(jīng)模型推理得到的vector 與每類哭聲embedding間的余弦距離,取分?jǐn)?shù)最高的對應(yīng)類為備選結(jié)果。
投票:根據(jù)單個(gè)模型預(yù)測的結(jié)果投票得到最終結(jié)果。
聲學(xué)感知技術(shù)未來將如何發(fā)展? 當(dāng)前主流的聲學(xué)感知技術(shù)使用的是強(qiáng)監(jiān)督的深度學(xué)習(xí)方法,隨著數(shù)據(jù)量的增大和技術(shù)的發(fā)展,未來監(jiān)督學(xué)習(xí)的方法將逐漸過度為半監(jiān)督甚至無監(jiān)督學(xué)習(xí)。其中半監(jiān)督學(xué)習(xí)正是當(dāng)前聲音事件檢測技術(shù)的研究重點(diǎn)。 不僅如此,深度學(xué)習(xí)的網(wǎng)絡(luò)模型也從人工專家設(shè)計(jì)逐漸轉(zhuǎn)變?yōu)樽詣?dòng)搜索架構(gòu),而元學(xué)習(xí)等小樣本學(xué)習(xí)方法也開始逐步應(yīng)用在聲學(xué)感知方向。 嬰兒哭聲分析只是聲學(xué)感知技術(shù)的其中一個(gè)應(yīng)用。當(dāng)前的聲音場景分類和聲音事件檢測技術(shù)已能在設(shè)備端上實(shí)時(shí)分析當(dāng)前用戶所處的場景和識(shí)別出各式各樣的聲音,如貓狗寵物叫聲、警報(bào)聲、汽車鳴笛聲等。
不僅如此,聲學(xué)感知技術(shù)還能分析出一些連人耳也無法聽出的聲音,如本次競賽的嬰兒啼哭意圖,以及應(yīng)用在工業(yè)上,通過分析機(jī)器發(fā)出的聲音來判斷機(jī)器保養(yǎng)狀態(tài)的聲學(xué)分析技術(shù)。聲音作為一種最常見的傳感媒介之一,聲音感知技術(shù)在智能家庭、自動(dòng)駕駛、智能工業(yè)化等領(lǐng)域都有廣泛的應(yīng)用場景。 手機(jī)xAIoT小米AI全力打造小米智能家居 隨著小米最新的手機(jī)xAIoT戰(zhàn)略,智能家居環(huán)境是手機(jī)設(shè)備與全部智能家居設(shè)備聯(lián)動(dòng)最全面的使用場景。手機(jī)、TWS耳機(jī)和越來越多的智能家居設(shè)備比如智能音箱、智能電視、米家IoT設(shè)備等都具有麥克風(fēng)拾音功能。 我們獲得了足夠多場景下的聲音數(shù)據(jù)時(shí),構(gòu)建基于設(shè)備端的場景感知、事件感知、人體感知和空間感知能力成為了可能。 依賴于全球第一的AIoT平臺(tái),小米可以實(shí)現(xiàn)對家中每一個(gè)角落無處不在的感知能力,并完成手機(jī)端事件提醒與多事件時(shí)間線回溯,聲學(xué)作為智能感知的一種手段,在未來與UWB技術(shù)、視覺圖像技術(shù)相結(jié)合,相互取長補(bǔ)短將成為主流的趨勢。
責(zé)任編輯:xj
原文標(biāo)題:小米AI實(shí)驗(yàn)室聲學(xué)團(tuán)隊(duì)榮獲2020 iFLYTEK A.I.開發(fā)者大賽嬰兒啼哭聲識(shí)別挑戰(zhàn)賽冠軍
文章出處:【微信公眾號:小米公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
AI
+關(guān)注
關(guān)注
87文章
31536瀏覽量
270350 -
智能語音
+關(guān)注
關(guān)注
10文章
789瀏覽量
48904 -
小米
+關(guān)注
關(guān)注
70文章
14387瀏覽量
144948
原文標(biāo)題:小米AI實(shí)驗(yàn)室聲學(xué)團(tuán)隊(duì)榮獲2020 iFLYTEK A.I.開發(fā)者大賽嬰兒啼哭聲識(shí)別挑戰(zhàn)賽冠軍
文章出處:【微信號:xiaomigongsi0406,微信公眾號:小米公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
達(dá)實(shí)再度榮獲十大出入口控制品牌第一名
蔚來獲得CACSI車型滿意度和售后服務(wù)滿意度第一名
理想L6和理想L8榮獲中國新能源汽車用戶滿意度測評第一名
小米與聚飛光電成立聯(lián)合實(shí)驗(yàn)室
TüV萊茵授予聯(lián)想合作實(shí)驗(yàn)室資質(zhì)
NVIDIA為AI城市挑戰(zhàn)賽構(gòu)建合成數(shù)據(jù)集
AI4Science黑客松光子計(jì)算挑戰(zhàn)賽成功舉辦
軟通動(dòng)力榮獲2023年中國IT服務(wù)市場第一名
潤和軟件連續(xù)四年蟬聯(lián)數(shù)字業(yè)務(wù)類解決方案市場第一名
MediaTek與小米集團(tuán)聯(lián)合實(shí)驗(yàn)室正式揭幕
浪潮信息獲CVPR2024自動(dòng)駕駛挑戰(zhàn)賽"Occupancy& Flow"冠軍
![浪潮信息<b class='flag-5'>獲</b>CVPR2024自動(dòng)駕駛<b class='flag-5'>挑戰(zhàn)賽</b>"Occupancy& Flow"冠軍](https://file1.elecfans.com//web2/M00/F2/E3/wKgZomZ6uBiAEXvPAACAQ3r7J5A389.jpg)
基于Tiny AI技術(shù)的嬰兒哭聲事件離線檢測方案
基于深度神經(jīng)網(wǎng)絡(luò)的嬰兒哭聲識(shí)別算法
華潤微電子以第一名的成績榮獲新吳區(qū)區(qū)長質(zhì)量獎(jiǎng)
![華潤微電子以<b class='flag-5'>第一名</b>的成績榮獲新吳區(qū)區(qū)長質(zhì)量獎(jiǎng)](https://file1.elecfans.com/web2/M00/C8/14/wKgaomYR9OCANAXrAAAkpG-r0Is095.png)
長城汽車自主品牌首個(gè)氣動(dòng)-聲學(xué)風(fēng)洞實(shí)驗(yàn)室即將建成
![長城汽車自主品牌首個(gè)氣動(dòng)-<b class='flag-5'>聲學(xué)</b>風(fēng)洞<b class='flag-5'>實(shí)驗(yàn)室</b>即將建成](https://file1.elecfans.com/web2/M00/C6/08/wKgZomYE0C6AK-GHAAASK1hsQeM008.jpg)
評論