人機(jī)界面技術(shù) (HMI) 在過(guò)去 10 到 15 年取得了長(zhǎng)足的進(jìn)步:直到 2000 年代初,嵌入式設(shè)備(最早的手持電話,然后被智能手機(jī)取代)上的彩色屏幕和觸摸屏絕對(duì)不是那么-負(fù)擔(dān)得起的加。隨著處理性能的提高、成本的降低以及新的通信技術(shù)的出現(xiàn),能夠?qū)⒂脩粝胍膬?nèi)容轉(zhuǎn)換為命令的設(shè)備已經(jīng)出現(xiàn)。
直到幾年前,能夠連接到云并允許通過(guò)使用語(yǔ)音命令(如亞馬遜的 Alexa)遠(yuǎn)程控制物聯(lián)網(wǎng)設(shè)備的設(shè)備都是純粹的科幻小說(shuō)。迄今為止,智能傳感器和智能音頻設(shè)備使您可以輕松地為您的語(yǔ)音控制個(gè)人助理創(chuàng)建硬件。
本文將指導(dǎo)您選擇最佳組件來(lái)設(shè)計(jì)您獨(dú)特的“Alexa”版本
語(yǔ)音助手:系統(tǒng)概覽
數(shù)字語(yǔ)音輔助系統(tǒng)是一種能夠執(zhí)行以下步驟的電子設(shè)備:
- 捕捉語(yǔ)音信息
- 將語(yǔ)音消息轉(zhuǎn)換為音頻流
- 通過(guò)復(fù)雜的算法處理音頻流,將其解釋為一個(gè)獨(dú)特的命令
- 將命令與動(dòng)作相關(guān)聯(lián)
- 播放音頻反饋消息
這一切的背后,是一整套的軟硬件技術(shù)。
圖 1 顯示了語(yǔ)音助手的框圖。
與任何其他通信通道一樣,該通道也涉及源信號(hào)、采集和轉(zhuǎn)換系統(tǒng)、編碼系統(tǒng)、處理系統(tǒng)、解碼系統(tǒng)和輸出信號(hào)發(fā)射系統(tǒng)。
在語(yǔ)音輔助系統(tǒng)的情況下,源信號(hào)是語(yǔ)音信息,它是通過(guò)我們的聲帶調(diào)制并作為振動(dòng)在空氣(通信方式)中傳播的機(jī)械波。振動(dòng)由充當(dāng)信號(hào)傳感器的麥克風(fēng)獲取。然后,對(duì)信號(hào)進(jìn)行調(diào)節(jié)和編碼以進(jìn)行處理。此時(shí),編碼的音頻流可以在本地(通過(guò)微控制器或微處理器)進(jìn)行操作,也可以通過(guò)語(yǔ)音識(shí)別算法和云端 AI 以更有效的方式遠(yuǎn)程發(fā)送以進(jìn)行處理。因此,處理輸出將是提供給致動(dòng)系統(tǒng)的命令。
至于音頻反饋,路徑類似但相反:將流解碼并發(fā)送到放大器,放大器將通過(guò)揚(yáng)聲器再現(xiàn)音頻。
系統(tǒng)組件
從頭開(kāi)始設(shè)計(jì)語(yǔ)音輔助系統(tǒng)是一項(xiàng)復(fù)雜的任務(wù)。直到幾十年前,只有擁有出色音頻設(shè)計(jì)技能的工程師團(tuán)隊(duì)才可行。如今,我們很幸運(yùn)能夠利用一系列硬件和軟件組件,這無(wú)疑使任務(wù)變得更簡(jiǎn)單。
該項(xiàng)目最關(guān)鍵的部分之一是音頻采集和再現(xiàn)部分,這需要應(yīng)用領(lǐng)域的出色知識(shí)以及模擬電子技能。為了簡(jiǎn)化任務(wù),我們可以使用數(shù)字傳感器,它集成了必要的模擬組件并傳輸已經(jīng)數(shù)字編碼的數(shù)據(jù)。
至于輸入部分,我們可以使用全向麥克風(fēng)INMP441,它采用MEMS技術(shù)(Micro Electro-Mechanical Systems)進(jìn)行轉(zhuǎn)換,實(shí)現(xiàn)了I2S數(shù)字接口進(jìn)行數(shù)據(jù)交換。這樣就避免了有關(guān)信號(hào)調(diào)節(jié)的問(wèn)題,并且與處理單元的接口不受噪聲影響。此外,要處理的信號(hào)已經(jīng)是數(shù)字格式。
至于音頻輸出級(jí),我們可以使用 MAX98357A,它是一個(gè) 2 通道 3W D 類放大器,也配備了一個(gè) I2S 接口。與輸入級(jí)類似,硬件設(shè)計(jì)極為簡(jiǎn)化:放大器通過(guò) I2S 接口在輸入端接收數(shù)字信號(hào),解碼音頻樣本并將其再現(xiàn)為芯片 L 和 R 端的電壓,只需簡(jiǎn)單連接給揚(yáng)聲器。
此時(shí),您需要選擇的最后一個(gè)設(shè)備是微控制器,它必須能夠處理(或發(fā)送到云端)來(lái)自麥克風(fēng)的音頻流,并發(fā)送音頻流以供放大器再現(xiàn)。最適合這個(gè)用途的 MCU 當(dāng)然是樂(lè)鑫的ESP32模塊(最好是 WROVER 模塊,配備 8MB 的 RAM,以及高達(dá) 16MB 的閃存)。由于其高連接性(BLE 和 WiFi)和高性能以及極低的價(jià)格,該模塊是智能家居應(yīng)用的正確選擇。它還具有兩個(gè)獨(dú)立的 I2S 接口,非常適合該項(xiàng)目的目的。
圖 2 顯示了該項(xiàng)目中使用的三個(gè)主要組件。
I2S 通信總線
I2S 接口協(xié)議是該項(xiàng)目的關(guān)鍵點(diǎn),因?yàn)樗褂布蛙浖甲兊煤?jiǎn)單,使設(shè)計(jì)人員和開(kāi)發(fā)人員從與模擬采集和再現(xiàn)相關(guān)的一系列問(wèn)題中解脫出來(lái)。
I2S 代表 Inter-IC Sound,它是為連接數(shù)字音頻設(shè)備而創(chuàng)建的串行接口的電氣標(biāo)準(zhǔn)。它在音頻應(yīng)用中用于在集成電路之間傳輸 PCM 音頻樣本,如我們的例子(MCU 和麥克風(fēng)/放大器)。I2S 創(chuàng)建于 1986 年,是飛利浦半導(dǎo)體(現(xiàn)為 NXP 半導(dǎo)體)的產(chǎn)品。
I2S 總線是同步的,因?yàn)樗鼜臄?shù)據(jù)線提供不同的時(shí)鐘信號(hào),這比異步設(shè)備更容易接收,在異步設(shè)備中,通信系統(tǒng)直接從數(shù)據(jù)流中獲取時(shí)鐘。它還在同一條數(shù)據(jù)線上提供最多兩個(gè)多路復(fù)用通道(右通道和左通道)。
I2S至少包括以下三行:
- 時(shí)鐘線(BCLK):用于標(biāo)記位時(shí)間并允許連接設(shè)備之間的同步
- 字選擇(WS)或左右時(shí)鐘(LRCLK)線:用于復(fù)用左聲道(WS低)和右聲道(WS高)。因此,它呈現(xiàn)為占空比為 50% 的方波
- 數(shù)據(jù)線:用于PCM樣本的傳輸,根據(jù)WS的狀態(tài)復(fù)用;數(shù)據(jù)以 2 的補(bǔ)碼編碼
時(shí)鐘切換頻率(f ck)不能任意選擇,而是根據(jù)輸入信號(hào)的采樣頻率(f s)、通道數(shù)(n ch)和單個(gè)采樣的位數(shù)(n bit ),其中 f ck結(jié)果是
f ck = f s *n位*n ch
例如,要傳輸 2 個(gè) 8kHz 采樣數(shù)據(jù)流,每個(gè)采樣有 12 位,我們需要設(shè)置
f ck = 8000 * 12 * 2 = 192000 次/秒。
圖 3 顯示了總線線路的時(shí)序圖示例。
電氣連接和軟件片段
圖 4 顯示了系統(tǒng)三個(gè)主要組件之間的連接。這些連接非常容易理解,因?yàn)樗阋赃B接麥克風(fēng)/放大器和 MCU 之間的時(shí)鐘信號(hào)、字同步和數(shù)據(jù)線。所有模擬調(diào)節(jié)、濾波和放大都集成到數(shù)字設(shè)備中。
最后,圖 5 顯示了在 ESP32 的 ESP-IDF 環(huán)境中正確使用 I2S 總線的結(jié)構(gòu)配置。該配置是指輸入信號(hào)以 8kHz 采樣,每個(gè)單通道采樣 16 位,作為輸入和輸出(因?yàn)橛幸粋€(gè)麥克風(fēng),并且有一個(gè)單聲道輸出)。
一個(gè)項(xiàng)目,千種可能
該項(xiàng)目是任何需要音頻輸入、放大輸出以及處理和通信系統(tǒng)的設(shè)備的起點(diǎn):類似的平臺(tái)可以在大量應(yīng)用中實(shí)現(xiàn),例如智能家居助手、音頻播放器、環(huán)境警報(bào)系統(tǒng),嬰兒監(jiān)視器和許多其他。
您將使用該平臺(tái)用于什么類型的應(yīng)用程序?
審核編輯:湯梓紅
-
Alexa
+關(guān)注
關(guān)注
2文章
196瀏覽量
23371 -
ESP32
+關(guān)注
關(guān)注
18文章
978瀏覽量
17523
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論