那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

多語種語音助手 構建本地語音交互內容生態

傳音控股 ? 來源:傳音控股 ? 2023-09-15 10:16 ? 次閱讀

伴隨著5G人工智能技術的發展,智能語音已經隨著各種智能終端產品滲透到人們的日常生活中,帶來了更多便捷和可能性。作為新興市場智能終端產品和移動互聯服務提供商,傳音聚焦人工智能領域持續創新,不斷推進AI語音技術的研究和應用,挖掘更多本地化用戶場景要求,為新興市場用戶帶來全場景智能交互體驗。

目前,傳音已經在語音識別、語義理解、語音合成、自然語言處理、知識圖譜等方面形成了的自身的AI語音底層技術能力,構建起小語種語音數據優勢,并在多語種語音助手、數字人、語音偽造檢測技術方面取得了重大突破。今年以來,傳音AI技術部成果不斷,接連在ICASSP 2023 SLU口語理解挑戰賽、IJCAI 2023 ADD 語音深度偽造檢測國際挑戰賽奪得佳績,并在國際多媒體旗艦學術會議ICME 2023上發表數字人多模態交互的相關學術論文。

多語種語音助手

構建本地語音交互內容生態

語音助手是智能手機的標配應用之一,其核心技術為語音交互和自然語言理解,旨在幫助用戶更快捷、高效地執行目標任務。面對新興市場本地語音交互的需求,傳音長期深耕多語種語音助手技術,著力洞察本地用戶需求,形成技術解決方案,在探索和研發過程中沉淀了深厚的技術能力和實踐經驗。

在語音技術領域國際頂級會議ICASSP(IEEE International Conference on Acoustics, Speech and Signal Processing)組織的2023口語理解挑戰賽SLU(Spoken Language Understanding)中,傳音AI技術部憑借在語音識別和語義理解方面的突出表現,以71.97%的準確率獲斬獲離線語音助手子賽道第一名。參賽論文“A Two-Stage System for Spoken Language Understanding”被IEEE電氣與電子工程師協會(Institute of Electrical and Electronics Engineers)收錄。

當前,語音助手主要面向主流語言,而對小眾語言、特定人群等細分領域覆蓋較少。傳音針對非洲、南亞等新興市場用戶的本地口音和小語種,依托海量手機用戶資源,建設了一套本地化低成本、高質量的語料數據生產體系,解決小語種語料匱乏、數據稀缺的問題。在此基礎上,傳音開發能適應新興市場本地用戶語言文化特點的多語種語音助手,幫助當地用戶更加便捷地使用本地語言與手機進行語音交互。目前,傳音的多語種語音助手技術已支持英語、法語、豪薩語、阿拉伯語、斯瓦西里語等語言的語音交互和自然語言理解能力,覆蓋聯系人通話、APP快速啟動、音樂播放、WhatsApp消息、閑聊等100多種使用場景。

面向本地用戶生活服務的訴求,傳音的多語種AI語音助手技術將不斷接入更多生活、出行、學習、工作等場景的生態服務,構建多領域跨語言的AI內容服務生態,讓智能化語音服務滲透到本地生活的方方面面,讓更多小語種的使用人群受益。

AI+數字人技術

賦能傳音多場景業務

隨著交互智能技術的加速發展,數字人正在從技術創新走向產業應用,在娛樂、教育、醫療等多個領域發揮作用。傳音積極擁抱AI發展機遇,提前布局數字人技術,建立了完備的全鏈路技術和工程化的自研能力。傳音數字人系統,包含2D真人和3D寫實數字人,擁有基于多語種的語音識別、語音合成、語音喚醒、自然語言理解和數字人等能力的數據資源,在多語種語音對話、人設和外觀、智能化場景交互等領域形成了自身的本地化特色和行業領先性。今年1月,傳音數字人系統獲得由中國信通院所頒發的數字人領域權威標準認證。這也是當前唯一通過中國信通院評測,以“交互對話”為核心的中國手機廠商數字人系統。

為了提高虛擬形象的仿真效果、合成出逼真且富有表現力的數字人視頻,傳音AI技術部自研端到端技術,在優化數字人視頻生成質量的過程中,基于Unet網絡提出了一種新的技術框架densely-connected Unet結構,同時引入了CLIP的encoder結構,利用文本語義信息提升數字人嘴部動畫效果。同時該技術提出人臉關鍵點技術的概率密度圖,增加了模型網絡的模態信息,提升了模型生成的質量。這一技術突破能夠讓數字人的面部形象更加真實、細膩,同時提升語音和唇形的一致性,其生成效果達到了學術上的領先水平。相關學術論文“CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation”被國際多媒體旗艦學術會議ICME 2023(IEEE International Conference on Multimedia and Expo)成功錄用。

3be92740-536c-11ee-a25d-92fbcf53809c.png

目前,傳音數字人系統已經深度應用于多業務場景,不僅落地海外手機門店,擔任智能導購員為用戶購買手機提供參考,還作為智能語音助手賦能多類智能終端產品,提升用戶體驗。下一步傳音將通過“AI+數字人”技術賦能多場景業務,積極探索數字人版語音助手和客服系統等新業務形態,為用戶帶來全新的智能交互體驗。

持續構建AI語音底層技術能力

在AI技術快速發展的現今,算法生成音頻和音頻偽造已經可以做到以假亂真,對于普通用戶來說辨別音頻真假非常困難。為了維護信息的可信性、保障社會安全,語音偽造檢測技術變得至關重要,已經成為人工智能領域的一個較新的研究方向。傳音圍繞智能終端產品業務場景,以本地用戶需求為導向,不斷延伸AI語音底層技術能力,布局新技術領域,在語音偽造檢測技術上取得了重大突破。

傳音AI技術部在國際人工智能聯合會議IJCAI 2023(The 32nd International Joint Conference on Artificial Intelligence)組織的第二屆語音深度偽造檢測國際挑戰賽ADD(The Second Audio Deepfake Detection Challenge)“篡改區域定位”(Manipulation Region Location)分賽道上奪得第二名。在比賽中,傳音AI技術部自研創新的AI模型算法和技術,能夠準確識別并定位音頻中語音的篡改行為,從而有效保障數字音頻的原始性和真實性,為AI應用及信息安全建設提供新思路。相關學術論文已成功發表在本屆IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023)會議上。

下一步,傳音AI技術部將繼續探索語音深度偽造檢測技術在傳音智能終端產品上的應用,如通話詐騙檢查保護用戶隱私安全等,不斷提升用戶使用體驗。

未來,傳音將繼續在AI語音多模態技術領域發力,圍繞“手機+移動互聯網服務+家電、數碼配件”核心業務需求,結合對新興市場和本地消費者的深刻洞察,為用戶提供適切其需求的智能生活體驗,形成本地化的AI內容服務生態,持續滿足多語種、多場景、個性化、智能化的應用需求。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 智能手機
    +關注

    關注

    66

    文章

    18550

    瀏覽量

    181054
  • 人工智能技術

    關注

    2

    文章

    216

    瀏覽量

    10590
  • AI芯片
    +關注

    關注

    17

    文章

    1906

    瀏覽量

    35216
  • 自然語言處理

    關注

    1

    文章

    619

    瀏覽量

    13646

原文標題:傳音持續深耕AI語音多模態技術,打造本地化智能交互體驗

文章出處:【微信號:TranssionHoldings,微信公眾號:傳音控股】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    三分鐘帶你接入OpenAI構建個人語音助手

    上周,我們在用戶群發布了基于AtomS3R與AtomicEchoBase接入OpenAI的個人語音助手Demo視頻,得到了很多用戶的喜歡。為此,我們特別制作了詳細的教程和視頻,按照步驟操作,你也可以
    的頭像 發表于 01-10 18:36 ?164次閱讀
    三分鐘帶你接入OpenAI<b class='flag-5'>構建</b>個人<b class='flag-5'>語音</b><b class='flag-5'>助手</b>

    解鎖個性化語音交互新時代:九芯智能語音云平臺,讓創意聲音觸手可及!

    九芯智能語音云平臺提供全面高效安全的智能語音服務,支持自定義語音內容,簡化燒錄流程,依托AI技術,助力各行業智能化升級,引領語音
    的頭像 發表于 01-02 16:51 ?182次閱讀
    解鎖個性化<b class='flag-5'>語音</b><b class='flag-5'>交互</b>新時代:九芯智能<b class='flag-5'>語音</b>云平臺,讓創意聲音觸手可及!

    Flash語音芯片相比OTP語音芯片的優勢

    ?。No.1可重復擦寫Flash語音芯片的最大特點是支持多次編程和擦除,這意味著用戶可以根據需要隨時更新語音內容,實現定制化和靈活的語音交互
    的頭像 發表于 12-16 16:02 ?194次閱讀
    Flash<b class='flag-5'>語音</b>芯片相比OTP<b class='flag-5'>語音</b>芯片的優勢

    基于智能語音交互的智能呼叫中心工作機制

    作為實現智能呼叫中心的關鍵技術之一的智能語音交互技術,它通過集成自然語言處理(NLP)、語音識別(ASR)和語音合成(TTS)等先進技術,實現了與客戶的智能
    的頭像 發表于 12-03 16:44 ?379次閱讀
    基于智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b>的智能呼叫中心工作機制

    ASR與傳統語音識別的區別

    識別技術。 構建更深更復雜的神經網絡模型,利用大量數據進行訓練。 提高了語音識別的準確率和穩定性。 傳統語音識別 : 通常依賴于聲學-語言模型的方法。 在處理復雜的語音輸入時,可能表現
    的頭像 發表于 11-18 15:22 ?642次閱讀

    訊維智能語音轉寫系統:開啟智能會議記錄新篇章!

    隨著人工智能技術的飛速發展,智能語音轉寫系統逐漸走進我們的日常生活和工作之中,成為提升工作效率、優化信息處理的重要工具。訊維智能語音轉寫系統,作為這一領域的佼佼者,憑借其高精度識別、實時轉寫、智能糾錯以及多語種支持等特性,正在深
    的頭像 發表于 11-15 15:41 ?408次閱讀
    訊維智能<b class='flag-5'>語音</b>轉寫系統:開啟智能會議記錄新篇章!

    訊維智能語音轉寫系統核心優勢大解析!

    憑借其高精度識別、實時轉寫、智能糾錯以及多語種支持等核心優勢,正在深刻改變著會議記錄、教育培訓、采訪報道和法律取證等多個領域的工作方式,成為提升工作效率和優化信息處理的重要工具。下面我們來整理下訊維智能語音轉寫系統的核心優勢有哪些吧!
    的頭像 發表于 11-15 15:24 ?427次閱讀
    訊維智能<b class='flag-5'>語音</b>轉寫系統核心優勢大解析!

    HarmonyOS NEXT應用元服務開發多語種場景

    當對朗讀內容進行標注時,須對標注字符串進行多語種翻譯,具體支持的語種和應用本身界面支持的語種保持一致。若采用多個字符串進行朗讀內容的拼接,需
    發表于 10-21 14:56

    HarmonyOS NEXT應用元服務開發多語種場景

    當對朗讀內容進行標注時,須對標注字符串進行多語種翻譯,具體支持的語種和應用本身界面支持的語種保持一致。若采用多個字符串進行朗讀內容的拼接,需
    發表于 10-18 09:40

    智能自行車碼表:基于2605C語音芯片的創新開發方案

    隨著科技的飛速發展和人們對健康生活的追求,自行車騎行已成為一種廣受歡迎的綠色出行方式。智能自行車碼表作為騎行者的得力助手,不僅記錄騎行數據,還逐漸融入了更多智能化功能。然而,傳統碼表在語音提示、多語種支持及用戶
    的頭像 發表于 09-21 11:20 ?352次閱讀

    輸入文字轉化語音

    一、介紹 基于鴻蒙Next模擬一個輸入用戶文字,轉化成語音播報效果二、場景需求 輔助功能:為視障人士提供幫助:將文字內容轉化為語音,使視覺障礙用戶能夠獲取信息。 教育與學習:語言學習:幫助學習者通過
    發表于 08-28 10:54

    三星Bixby語音助手即將進軍家電產品,實現自然語言交互

     三星宣布,Bixby語音助手即將全面進駐BESPOKE AI系列家電,用戶可通過自然語言對家電進行語音控制。Bixby作為三星智能手機、手表、平板及電視的核心功能,如今將拓展至更多家電領域。
    的頭像 發表于 08-26 17:20 ?847次閱讀

    訊維智能語音轉寫系統確保企業數據的安全性

    糾錯以及多語種支持等特性,正在深刻改變著會議記錄、教育培訓、采訪報道和法律取證等多個領域的工作方式。 一、系統介紹 訊維智能語音轉寫系統,是一款智能語音識別產品,專為高效會議設計。它能夠實時捕捉并轉寫會議中的
    的頭像 發表于 08-02 15:53 ?763次閱讀

    離線語音控制技術特點

    離線語音控制通過結合高性能的音頻前端處理算法和本地AI模型實現了高效的語音識別和控制能力,不依賴于互聯網連接,同時具備靈活的應用擴展性。這種解決方案為各種智能設備提供了穩定、高效和多語
    的頭像 發表于 06-26 18:12 ?581次閱讀
    離線<b class='flag-5'>語音</b>控制技術特點

    聆思CSK6視覺語音大模型AI開發板入門資源合集(硬件資料、大模型語音/多模態交互/英語評測SDK合集)

    與硬件外設的開發板,采用具備豐富組件生態的 Zephyr RTOS作為操作系統,官方提供了十幾種開源SDK,包含大模型語音交互、大模型拍照識圖、文生圖、人臉識別、頭肩追蹤、手勢識別、坐姿提醒等。聆思科
    發表于 06-18 17:33
    百家乐官网是片人的吗| 豪享博百家乐官网的玩法技巧和规则 | 西乡县| 大发888娱乐城下载| 易胜博网址| 幸运水果机下载| 香港六合彩管家婆| 太阳百家乐网| 大发888游戏平台188| 鹤峰县| 百家乐官网获胜秘决百家乐官网获胜秘诀| 博狗| 武夷山市| 百家乐官网玩法教材| 百家乐官网真钱斗地主| 嬴澳门百家乐官网的公式| 星河百家乐官网的玩法技巧和规则| 百家乐视频对对碰| 百家乐bp| 明升网| 百家乐官网投注法减注| 百家乐官网代理新闻| ea百家乐官网打水| 百家乐官网娱乐城棋牌| 百家乐官网楼梯缆大全| 网上百家乐的赌博网站| 百家乐五湖四海娱乐平台| 定制百家乐桌子| 3D乐财网| 百家乐官网那个平好| 百家乐仿水晶筹码| 百家乐倍投软件| 百家乐官网视频官网| 百家乐现实赌场| 澳门威尼斯人| 百家乐路单之我见| 威尼斯人娱乐城lm0| 水果机规律| 澳门百家乐官网网上赌博| 百家乐特殊计| 百家乐官网对子的玩法|