Speech AI 線上技術(shù)研討會(huì)
精彩議程搶先看
![](https://file1.elecfans.com//web2/M00/97/76/wKgZomTnNt2AB5bFAABhAB2VuGY331.png)
自二十世紀(jì)下半葉第一個(gè)基于計(jì)算機(jī)的語(yǔ)音合成系統(tǒng)誕生,至以隱馬爾可夫模型為代表的統(tǒng)計(jì)機(jī)器學(xué)習(xí)合成語(yǔ)音占據(jù)主流,再到近十年來(lái)基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成快速發(fā)展,計(jì)算機(jī)語(yǔ)音合成技術(shù)如今已能媲美真人發(fā)聲,并走向大規(guī)模的商業(yè)化落地階段。
Gartner 技術(shù)成熟度曲線表明,語(yǔ)音識(shí)別和語(yǔ)音合成技術(shù)如今已經(jīng)達(dá)到穩(wěn)步爬升恢復(fù)期和生產(chǎn)成熟期。國(guó)內(nèi)的智能語(yǔ)音市場(chǎng)也形成了比較成熟的格局,智能語(yǔ)音科技企業(yè)和互聯(lián)網(wǎng)企業(yè)成為主導(dǎo)。因此,要實(shí)現(xiàn)差異化競(jìng)爭(zhēng),企業(yè)也在紛紛思考如何從單一的智能語(yǔ)音技術(shù)提供商轉(zhuǎn)型為提供全方位的人工智能技術(shù)和應(yīng)用的服務(wù)商。此外,盡管技術(shù)已經(jīng)趨近成熟,門(mén)檻大大降低,開(kāi)發(fā)和運(yùn)行可落地的語(yǔ)音人工智能服務(wù)仍然是一項(xiàng)復(fù)雜而艱巨的任務(wù),通常需要面臨實(shí)時(shí)性、可理解性、自然性、低資源、魯棒性等挑戰(zhàn)。
在智能語(yǔ)音市場(chǎng)的競(jìng)爭(zhēng)格局中,一大空缺是算法、通用類(lèi)芯片和云端 AI 芯片。借助以 GPU 為代表的通用類(lèi)芯片上的技術(shù)優(yōu)勢(shì),NVIDIA 進(jìn)軍了智能語(yǔ)音領(lǐng)域。基于自動(dòng)語(yǔ)音識(shí)別( ASR )和語(yǔ)音合成( TTS ),NVIDIA Riva 簡(jiǎn)化了開(kāi)發(fā)語(yǔ)音 AI 服務(wù)的端到端流程,并為語(yǔ)音交互提供實(shí)時(shí)性能。此外,包括 NVIDIA TensorRT 和 Triton 推理服務(wù)器在內(nèi)的諸多 NVIDIA 技術(shù)也幫助各種 Speech AI 工作負(fù)載進(jìn)行大幅的降本增效。不論是 AI 呼叫中心、虛擬主力語(yǔ)音接口,還是視頻會(huì)議中的實(shí)時(shí)字幕等應(yīng)用,NVIDIA GPU 及 NVIDIA 加速技術(shù)都在幫助用戶(hù)進(jìn)一步為技術(shù)落地降低門(mén)檻,為自動(dòng)駕駛、醫(yī)療等場(chǎng)景的智能語(yǔ)音應(yīng)用創(chuàng)新賦能。
2022 年 10 月 25 日和 27 日,NVIDIA 在 DataFun 直播間,舉辦 Speech AI 線上技術(shù)研討會(huì),由資深專(zhuān)家介紹 NVIDIA NeMo / RIVA 構(gòu)建語(yǔ)音應(yīng)用的工作流、GPU 加速和部署 Speech AI 任務(wù)全流程的最佳實(shí)踐,更榮幸邀請(qǐng)到了 WeNet 開(kāi)源社區(qū)發(fā)起人為我們分享 WeNet 社區(qū)的最新技術(shù)進(jìn)展。
議題介紹
★
NVIDIA NeMo 工具介紹,以及如何利用 NeMo 進(jìn)行語(yǔ)音相關(guān)任務(wù)的訓(xùn)練
NeMo 是 NVIDIA 推出的一款主打GPU 訓(xùn)練的工具,可以支持常見(jiàn)的 Speech AI 相關(guān)的任務(wù),例如ASR、NLP、TTS、Speaker Recognition 等。將以中文語(yǔ)音識(shí)別為例,介紹如何利用 NeMo 快速地完成該任務(wù)的訓(xùn)練。同時(shí)也會(huì)介紹 NeMo 中目前已有的一些功能,例如 VAD、說(shuō)話人日志等。
通過(guò)本次演講您將收獲以下內(nèi)容:
如果利用 NeMo 訓(xùn)練 ASR 模型?
NeMo 對(duì)中文語(yǔ)音任務(wù)的支持有哪些?
NeMo 支持其他哪些 Speech processing 的任務(wù)?
演講嘉賓
丁文 NVIDIA 解決方案架構(gòu)師
畢業(yè)于上海交通大學(xué),導(dǎo)師為俞凱教授。畢業(yè)后曾就職于頭部互聯(lián)網(wǎng)公司語(yǔ)音交互部門(mén),主要負(fù)責(zé)流式 ASR 的迭代與優(yōu)化、粵語(yǔ) ASR 等。目前就職于 NVIDIA,負(fù)責(zé) Riva 中文 ASR 模型迭代,中文 ASR 模型 GPU 部署方案落地與優(yōu)化等。
★
使用 NVIDIA Riva 部署企業(yè)級(jí) ASR 服務(wù)
NVIDIA Riva 提供了最先進(jìn)的 GPU 優(yōu)化部署解決方案,用于構(gòu)建和部署完全可定制的實(shí)時(shí)語(yǔ)音識(shí)別服務(wù),用于諸如呼叫中心代理協(xié)助、虛擬助理、數(shù)字化身、品牌語(yǔ)音和視頻會(huì)議轉(zhuǎn)錄等應(yīng)用程序。
本次分享將為大家介紹 NVIDIA Riva 的主要特性,包括高精度的預(yù)訓(xùn)練語(yǔ)音模型,高性能推理模型,以及高可擴(kuò)展的推理服務(wù)。
通過(guò)本次演講您將收獲以下內(nèi)容:
如何使用 NVIDIA Riva 在 GPU 上快速部署語(yǔ)音識(shí)別服務(wù)?
Riva 是如何針對(duì) GPU 進(jìn)行優(yōu)化加速的?
怎樣進(jìn)行定制化達(dá)到更好的語(yǔ)音識(shí)別精度?
演講嘉賓
齊家興 NVIDIA 解決方案架構(gòu)師
德國(guó)亞琛工業(yè)大學(xué)博士,目前于英偉達(dá)企業(yè)解決方案部門(mén)擔(dān)任高級(jí)架構(gòu)師,多年來(lái)從事自然語(yǔ)言處理和語(yǔ)音識(shí)別等方向研究,助力多家企業(yè)基于 GPU 平臺(tái)實(shí)現(xiàn)高效易用的訓(xùn)練和推理平臺(tái)。他是英偉達(dá) NeMo,Riva 語(yǔ)音識(shí)別訓(xùn)練推理平臺(tái)的中文模型開(kāi)發(fā)者之一。
★
利用 Triton Inference Server 和 TensorRT 加速語(yǔ)音 AI 在云端的運(yùn)行效率
演講將主要介紹云上部署端到端 ASR 服務(wù)最佳實(shí)踐以及云上部署端到端 TTS 服務(wù)最佳實(shí)踐。
通過(guò)本次演講您還將收獲以下內(nèi)容:
了解如何加速語(yǔ)音 AI 模型
了解如何節(jié)省語(yǔ)音 AI服務(wù)的部署成本
演講嘉賓
劉川 NVIDIA 資深解決方案架構(gòu)師
NVIDIA 中文語(yǔ)音解決方案主要負(fù)責(zé)人,對(duì)基于 GPU 的語(yǔ)音識(shí)別和語(yǔ)音合成在云上的部署有豐富經(jīng)驗(yàn)。
★
WeNet 在 Speech AI 的應(yīng)用與探索
演講將主要介紹開(kāi)源極簡(jiǎn)史、語(yǔ)音開(kāi)源簡(jiǎn)史、WeNet 開(kāi)源社區(qū)以及基于 GPU 的語(yǔ)音識(shí)別實(shí)踐。
通過(guò)本次演講您將收獲以下內(nèi)容:
了解 WeNet 開(kāi)源社區(qū)
WeNet 社區(qū)中如何支持和使用 GPU
演講嘉賓
張彬彬 WeNet 開(kāi)源社區(qū)發(fā)起人
碩士畢業(yè)于西北工業(yè)大學(xué)音頻語(yǔ)音與語(yǔ)音處理研究組。WeNet 開(kāi)源社區(qū)發(fā)起人,主導(dǎo)了業(yè)界領(lǐng)先的開(kāi)源端到端語(yǔ)音識(shí)別項(xiàng)目 WeNet 和大規(guī)模多領(lǐng)域中文語(yǔ)音識(shí)別開(kāi)源數(shù)據(jù)集 WenetSpeech 的開(kāi)發(fā)。現(xiàn)任地平線語(yǔ)音算法專(zhuān)家,曾先后在微軟、出門(mén)問(wèn)問(wèn)等公司從事語(yǔ)音識(shí)別算法和產(chǎn)品研發(fā)。
參與方式
精彩連續(xù),點(diǎn)擊“閱讀原文”或掃描下方海報(bào)二維碼,馬上注冊(cè)預(yù)約!
![](https://file1.elecfans.com//web2/M00/97/76/wKgZomTnNt2AFwd4AAR05e9iXr0926.jpg)
原文標(biāo)題:「揭秘」Speech AI 技術(shù)發(fā)展與前沿應(yīng)用
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3848瀏覽量
91991
原文標(biāo)題:「揭秘」Speech AI 技術(shù)發(fā)展與前沿應(yīng)用
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
醫(yī)療物聯(lián)網(wǎng)的技術(shù)發(fā)展及Silicon Labs解決方案
![醫(yī)療物聯(lián)網(wǎng)的<b class='flag-5'>技術(shù)發(fā)展</b>及Silicon Labs解決方案](https://file1.elecfans.com/web3/M00/03/2C/wKgZPGdlBY2AMeanAAAyT_lzNDE014.png)
龍騰半導(dǎo)體第十五屆亞洲電源技術(shù)發(fā)展論壇精彩回顧
深度參與,共話未來(lái) —— 吹田電氣亮相第十五屆亞洲電源技術(shù)發(fā)展論壇
![深度參與,共話未來(lái) —— 吹田電氣亮相第十五屆亞洲電源<b class='flag-5'>技術(shù)發(fā)展</b>論壇](https://file1.elecfans.com/web2/M00/A0/44/wKgZomTsMkGARY-FAAAfPWEyg2U106.png)
直流高壓電源技術(shù)發(fā)展淺析
DEKRA德凱探討AI安全技術(shù)的前沿趨勢(shì)
揭秘高精度貼裝技術(shù)如何助力AI芯片量產(chǎn)飛躍
![<b class='flag-5'>揭秘</b>高精度貼裝<b class='flag-5'>技術(shù)</b>如何助力<b class='flag-5'>AI</b>芯片量產(chǎn)飛躍](https://file1.elecfans.com/web2/M00/0A/6B/wKgZomcgUfuAI-7-AACIbGCSTkg612.png)
智能駕駛技術(shù)發(fā)展趨勢(shì)
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得
科幻前沿技術(shù)發(fā)展論壇召開(kāi) 十余名科幻大咖暢議科幻創(chuàng)意賦能科技創(chuàng)新
![科幻<b class='flag-5'>前沿技術(shù)發(fā)展</b>論壇召開(kāi) 十余名科幻大咖暢議科幻創(chuàng)意賦能科技創(chuàng)新](https://file1.elecfans.com//web2/M00/06/D8/wKgaombgDuKAXP8xAADATlWxddw46.jpeg)
無(wú)線充電技術(shù)發(fā)展趨勢(shì)
Build 2024發(fā)布多項(xiàng)Azure AI Speech全新多模態(tài)功能
![Build 2024發(fā)布多項(xiàng)Azure <b class='flag-5'>AI</b> <b class='flag-5'>Speech</b>全新多模態(tài)功能](https://file1.elecfans.com/web2/M00/EA/A0/wKgaomZVLt-Ab0jpAAAnkeMrB7U569.png)
揭秘氣候技術(shù)發(fā)展的關(guān)鍵平臺(tái)Earth-2的核心—CorrDiff
高通在2024 MWC展示AI領(lǐng)域新突破
AI大模型加速落地! 西部數(shù)據(jù)助力數(shù)據(jù)中心智能化升級(jí)
![<b class='flag-5'>AI</b>大模型加速落地! 西部數(shù)據(jù)助力數(shù)據(jù)中心智能化升級(jí)](https://file1.elecfans.com/web2/M00/BF/CE/wKgaomW4VquADx7aAAImZH44Vfc207.png)
評(píng)論