不難發現,現在「車載語音交互」的體驗越來越完善。它不僅能完成更多的指令,而且能和我們進行情感交互,甚至還懂得一些基本的倫理綱常。AI語音交互,同樣正在占據我們生活應用中的每一個入口,現在,被視作“第三空間”的汽車場景,通過自然連續對話完成人車之間的主動交互,正在成為現實。
回顧發展之初,車載語音雖然能完整跑通 ASR、TTS 這些流程,能實現一些簡單的 NLU/NLP 能力,但體驗有很多漏洞,比如有可能識別失敗,指令完成緩慢,交互邏輯不合常理等等。如今來看,這些基礎能力正變得更強,基本可以稱得上是一個「有價值的工具」。
另一方面,語音交互作為智能網聯汽車的“靈魂”,一直是車聯網公司和主機廠發力的重點領域。目前市面上常見的車載系統每次交互都得說出喚醒詞,無法做到自然連續對話。相比市場同類車載系統,基于AliOS底層技術開發的斑馬智行VENUS系統,在AI語音功能智能化程度上有了更高突破,不僅具備人類親和力的特質和邏輯思維能力,同時,整個對話體驗更加自然流暢,能帶給用戶更具情景化、更有溫度的用車體驗。
實際上,新斑馬語音產品在快、準、自然的交互體驗基礎上,開創了全雙工、全場景、全閉環的交互特色,并第一次在車內實現了個性化聲音克隆的技術。
語音基礎能力方面,新斑馬語音背靠阿里巴巴達摩院,提供ECNR、VW、ASR、TTS等全鏈路語音基礎能力,并且在汽車語義上投入重兵與達摩院合作共建,保障在核心能力上的領先性和特色。
語音交互特性方面,重點演進了全雙工交互能力,并且開發了可見即可說、全時喚醒、靈動喚醒詞、多TTS引擎、雙模態交互、個性化聲音克隆等交互特色。其中聲音克隆技術可以將用戶的聲音復制到車內,提供更加個性化的趣味體驗。
同時,在與車場景結合方面,斑馬語音擁有全場景、全閉環的交互體驗。在地圖導航、多媒體、通訊、車控車設四大場景上進行了深度挖掘,與語音進行深度結合,實現動口不動手的語音交互體驗。同時為支付寶車載小程序開放平臺提供語音開放能力,讓接入汽車的支付寶車載小程序都可以使用語音進行交互。
自然語音交互系統- 全雙工交互技術
一次喚醒多次輸入
更高效更接近人類交互習慣
基于場景的上下文預測
邊說邊聽,邊聽邊想
全雙工交互具有一次喚醒多次輸入、邊說邊聽邊聽邊想、基于場景進行上下文預測等能力。相比傳統語音交互方式,全雙工更接近人類習慣,是語音交互到自然交互的必備階段。
實現全雙工語音交互,面臨著多項技術挑戰:如何在機器說話的同時清楚地接收用戶說話的信號?如何保證持續不斷地接收用戶完整的信息表達?如何在保證準確理解的前提下控制誤觸發?這些問題在汽車環境中會被不斷放大,阻礙技術的落地應用。
斑馬依托達摩院降噪、回聲消除、流式ASR、流式NLU、專項NLU拒識模型等前沿技術,在大規模實車數據的訓練下,實現了真正的全雙工交互技術在車內的大規模使用。
自然語音交互系統- 聲音克隆技術
基于深度神經網絡
快速生成TTS聲音模擬
個性化自然交互體驗
讓最熟悉的聲音一路相伴
聲音克隆技術只需要提取用戶5-10分鐘的聲音片段,就可以提取出他的聲音特征,進而訓練出和他的聲音相似的TTS聲音。傳統的TTS技術需要獲得幾十小時的數據才能夠進行TTS的發音人訓練。而基于深度神經網絡,斑馬聲音克隆系統在5-10分鐘的聲音片段中,就可以通過聲音特征提取訓練、聲音合成器訓練和聲碼器訓練完成TTS聲音的模擬。
聲音克隆技術在車內可以為你帶來更加個性化的自然交互體驗,你可以把車內的聲音設置成自己的愛人、子女、父母等親人的聲音,為自己的行車生活增添更多的溫暖。
有了聲音及語意上的天然優勢,再加之AI大數據的后端支持,斑馬智行VENUS實現了“智商情商雙進步,聊啥都懂”的突出能力。具體來看,斑馬智行VENUS AI語音技能將覆蓋500多個常用知識領域,無論是查天氣、查股票,還是幽默段子,都能“隨問隨答”。
隨著5G、物聯網、自動駕駛等技術的成熟,車載語音助手必然會替代我們現有的人車交互方式,一款好的車機語音對汽車而言,顯得尤為重要。在近日對外透露的斑馬5計劃中,「對話式導航」將成為下一項語音交互黑科技。不久的將來,影視劇中如霹靂游俠那般的人車對話也終將會實現。
編輯:jq
-
物聯網
+關注
關注
2914文章
44938瀏覽量
377074 -
ASR
+關注
關注
2文章
43瀏覽量
18804 -
5G
+關注
關注
1356文章
48506瀏覽量
566027 -
自動駕駛
+關注
關注
785文章
13932瀏覽量
167015
原文標題:自然語音交互系統 帶來人機對話新體驗
文章出處:【微信號:AliOS,微信公眾號:AliOS】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
清華牽頭深開鴻參與:混合智能人機交互系統獲批立項
啟英泰倫新推出多意圖自然說,重塑離線人機交互新標準!
![啟英泰倫新推出多意圖<b class='flag-5'>自然</b>說,重塑離線<b class='flag-5'>人機交互</b>新標準!](https://file.elecfans.com/web2/M00/4B/7E/pYYBAGKpMnSAOhxnAAAcxe7JyFw626.jpg)
語音芯片賦能可穿戴設備:開啟個性化音頻新體驗
語音識別與自然語言處理的關系
具身智能對人機交互的影響
海思星閃指向遙控引領電視大屏智慧交互新體驗
科大訊飛發布星火極速超擬人交互,重塑智能對話新體驗
樂鑫聲學前端算法:打造智能語音交互新體驗,ESP32-S3 SOC技術方案
![樂鑫聲學前端算法:打造智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b><b class='flag-5'>新體驗</b>,ESP32-S3 SOC技術方案](https://file.elecfans.com/web2/M00/02/C4/pYYBAGDSzfeAP86XAAAO5PbqJbI698.png)
OpenAI提前解鎖GPT-4o語音模式,引領對話新紀元
智能語音交互技術如何助力設備實現人機自然對話
![智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b>技術如何助力設備實現<b class='flag-5'>人機</b><b class='flag-5'>自然</b><b class='flag-5'>對話</b>](https://file1.elecfans.com/web2/M00/E9/38/wKgaomZO7VuAb5ryAADQ9wH2CZs412.png)
評論