518娱乐城送彩金,77棋牌下载,金沙集团app最新版下载官网(中国)·官方网站

今天，谷歌發布Translatotron語音翻譯系統，這是第一個可以直接將一個人的聲音從一種語言轉換成另一種語言，同時保持說話人的聲音和節奏的翻譯模型。

讓說不同語言的人更容易地、直接地相互交流，這是語音到語音的翻譯系統(Speech-to-speech translation)的目的，這樣的系統在過去幾十年里取得了不錯的進展。

傳統上，語音翻譯系統通常有3個獨立的部分：自動語音識別將源語音轉錄為文本，機器翻譯將轉錄的文本翻譯成目標語言，最后，文本到語音合成(TTS)系統將翻譯文本轉換成目標語言的語音。

許多商業語音到語音翻譯的產品都采用這樣的系統，包括Google Translate。但是，這類系統依賴于中間文本，準確率不高，而且效率較低。

谷歌的新工具Translatotron舍棄了將語音翻譯為文本再返回語音的步驟，而是采用端到端的技術，直接將說話者的聲音翻譯成另一種語言。這使它能夠快速地翻譯，但更重要的是，能夠更容易反映說話人的語調和節奏。

在論文《基于序列到序列模型的直接語音到語音翻譯》(Direct speech-to-speech translation with a sequence-to-sequence model）中，谷歌的研究人員提出一種基于單個注意力序列到序列模型的直接語音到語音翻譯的新實驗系統，該系統不依賴于中間文本表示。

這個系統被稱為Translatotron，避免了將任務劃分為獨立的階段，比級聯系統更有優勢，包括推理速度快、自然地避免了識別和翻譯之間的復合錯誤，能夠在翻譯后保留原說話者的聲音，以及能夠更好地處理不需要翻譯的單詞(如名稱和專有名詞)。

Translatotron：不依賴中間文本，直接翻譯語音

語音翻譯端到端模型的出現始于2016年，當時研究人員證明了使用單個序列到序列模型進行語音到文本翻譯的可行性。2017年，我們證明了這種端到端模型可以超越級聯模型(cascade models)。

最近有許多工作進一步改進了端到端語音到文本翻譯模型的方法，包括同樣來自谷歌的利用弱監督數據的工作(https://arxiv.org/abs/1811.02050)。

Translatotron更進一步，證明了單個序列到序列模型可以直接將一種語言的語音翻譯成另一種語言的語音，而不需要像級聯系統那樣依賴于任何一種語言的中間文本表示。

Translatotron基于一個sequence-to-sequence網絡，它將源聲譜圖(spectrograms)作為輸入，生成目標語言翻譯內容的聲譜圖。

輸入和生成的聲譜圖

此外，Translatotron還使用了另外兩個單獨訓練的組件：一個神經聲音編碼器(neuralvocoder)，可以將輸出聲譜圖轉換為時域波形；另外，還可以選擇使用一個speaker encoder，用于在合成翻譯語音時保持源speaker的語音特征。

在訓練過程中，序列到序列模型使用一個多任務目標預測源和目標轉錄文本，同時生成目標聲譜圖。然而，推理過程中不需要使用轉錄文本或其他中間文本表示。

Translatotron的模型結構

性能

谷歌通過測量BLEU分數來驗證Translatotron的翻譯質量。該分數是通過語音識別系統轉錄的文本計算的。雖然結果落后于傳統的級聯系統，但已經證明了端到端直接語音到語音轉換的可行性。

對比Translatotron到基線級聯方法的直接語音到語音翻譯輸出，在這種情況下，兩個系統都提供合適的翻譯并使用相同的規范語音很自然的說話。

保持聲音特征

通過結合揚聲器編碼器網絡，Translatotron還能夠在翻譯的語音中，保留原始說話者的聲音特征，這使得翻譯的語音聽起來更自然，不那么刺耳。

此功能利用了之前針對TTS的演講者驗證和演講者調整的Google研究。揚聲器編碼器在演講者驗證任務上進行預訓練，學習從簡短的示例話語對揚聲器特性進行編碼。在該編碼上調節頻譜圖解碼器，即使內容是在不同的語言中，也可以合成具有類似揚聲器特性的語音。

谷歌提供了諸多使用示例，如下面的例子，Translatotron將西班牙語對話轉換為英語，下面的音頻分別是西班牙語輸入、真人參考翻譯，以及Translatotron的翻譯。

（由于微信智能插入一個音頻，請點擊原文鏈接聽更多語音。）

Translatotron的翻譯：

更多示例：

https://google-research.github.io/lingvo-lab/translatotron/#conversational

在這個例子中，Translatotron提供比基線級聯模型更準確的平移，同時能夠保留原始說話者的聲音特征。保留原始說話者聲音的Translatotron輸出訓練的數據，少于使用規范聲音的數據，因此它們產生的翻譯略有不同。

結論

谷歌聲稱，Translatotron是第一個可以直接將一種語言的語音，翻譯成另一種語言的語音的端到端模型。它還能夠在翻譯的語音中保留源說話者的聲音。谷歌希望這項工作可以作為未來端到端語音轉語音翻譯系統研究的起點。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
45

文章
3669

瀏覽量
135247
谷歌

谷歌

+關注

關注
27

文章
6195

瀏覽量
106016
語音

語音

+關注

關注
3

文章
385

瀏覽量
38134

原文標題：同聲傳譯被攻陷！谷歌發布Translatotron直接語音翻譯系統

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

發布于 :2024年02月28日 09:13:06

那曲檬骨新材料有限公司

搜索歷史

谷歌發布Translatotron語音翻譯系統

評論

AI助力實時翻譯耳機

基于語音識別的智能會議系統具備哪些交互功能

谷歌與三星聯合發布Android XR操作系統

谷歌正式發布Gemini 2.0 性能提升近兩倍

谷歌計劃12月發布Gemini 2.0模型

阿里國際發布翻譯大模型Marco

谷歌推出Gemini Live，開啟AI語音聊天新紀元

車載語音識別系統語音數據采集標注案例

車載語音識別系統語音數據采集標注案例

開源項目！設計一款智能手語翻譯眼鏡

谷歌發布多模態AI新品，加劇AI巨頭競爭

谷歌發布用于輔助編程的代碼大模型CodeGemma

谷歌發布全新AI模型Genie

谷歌發布開源AI大模型Gemma

谷歌交互世界模型重磅發布