那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

X-RiSAWOZ: 高質量端到端多語言任務型對話數據集

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-07-06 16:44 ? 次閱讀

1.

引言

由于構建任務型對話數據集的成本較高,目前任務型對話的研究主要集中在少數流行語言上(如英語和中文)。為了降低新語言的數據采集成本,我們通過結合純人工翻譯和人工編輯機器翻譯結果的方式創建了一個新的多語言基準——X-RiSAWOZ,該數據集將中文RiSAWOZ翻譯成4種語言:英語、法語、印地語、韓語,以及1種語碼混合場景(印地語-英語混合)。X-RiSAWOZ中每種語言都有超過18,000個經過人類驗證的對話語句,與之前大多數多語言工作不同的是,它是一個端到端的數據集,可用于建立功能齊全的對話代理。除數據集外,我們還構建了標注和處理工具,使得向現有數據集中添加新語言變得更快、更經濟。

2.

數據集介紹

任務定義:端到端任務型對話通常被分解為若干子任務,這些任務可以由流水線系統或單個神經網絡執行。下圖展示了這些子任務及其輸入和輸出:

0d7630b6-1bd5-11ee-962d-dac502259ad0.png

圖1:端到端任務型對話流程

數據來源:我們翻譯了RiSAWOZ數據集的驗證集與測試集,同時為了促進少樣本對話系統的研究,我們還隨機選取了1%的訓練集進行翻譯,統計數據如下表所示:

0d9d1c12-1bd5-11ee-962d-dac502259ad0.png

圖2:X-RiSAWOZ數據集統計

數據集構建方案:為了實現低成本和高質量的多語言端到端任務型對話數據構建,我們使用以下幾種技術從源語言數據(中文RiSAWOZ數據集)創建目標語言的訓練數據:

1. 翻譯:為了在質量和成本之間取得平衡,我們使用純人工翻譯從中文翻譯成英文,并使用機器翻譯和后期編輯將英語數據翻譯成其他語言,以盡可能避免兩次翻譯過程中可能的錯誤傳播。

2. 對齊:我們提出了一種混合對齊策略,以確保實體在話語和信念狀態中都能被替換為所需的翻譯。具體而言,我們首先嘗試使用基于實體標注構建的字典對齊,如果輸出中沒有匹配的翻譯,則退回到神經對齊(即使用encoder-decoder cross-attention權重匹配源語言和目標語言中相對應的實體)。

3. 自動標注檢查:我們開發了一個標注檢查器來自動標記和糾正可能存在的錯誤,包括1)實體檢查階段——確保在實體的英語翻譯中所做的更改傳播到其他目標語言的翻譯,以及2)API檢查階段——通過將翻譯后API調用的結果與提供的真實值進行比較來檢查API的一致性。

數據構建與檢查的流程如下圖所示:

0daf5ad0-1bd5-11ee-962d-dac502259ad0.png

圖3:數據集構建流程(以漢語到英語為例)

0dd272ae-1bd5-11ee-962d-dac502259ad0.png

圖4:數據集檢查流程(以漢語到法語為例)

3.

實驗結果

我們使用了mBART和m2m100 (for Korean only) 進行實驗。對于零樣本實驗,我們不使用任何人工創建的目標語言數據,只使用基于機器翻譯自動創建訓練數據。對于少樣本實驗,我們從零樣本模型開始,并在目標語言的少樣本數據集上進一步對其進行微調。實驗的評估方式有兩種:Turn by Turn Evaluation和Full Conversation Evaluation。

Turn by Turn Evaluation:在這種設定下,我們在評估中使用所有先前輪次和子任務的ground truth數據作為輸入。結果表明,在零樣本設置中,性能因添加的語言而異,各個語言在對話狀態追蹤 (DST)達到了34.6%-84.2%的準確率,在對話動作生成 (DA)上達到了42.8%-67.3%的準確率,而在回復生成 (RG)上達到10.2-29.9的BLEU值,這意味著零樣本任務型對話在低資源語言場景下仍然是極具挑戰的任務。在少樣本數據上進行微調可以改善所有語言的所有指標,其中DST提高到60.7%-84.6%,DA提高到38.0%-70.5%,而BLEU則提高到了28.5-46.4。從下圖的數據中可以看到,在印地語、韓語和英語-印地語中,DST的改進尤其明顯,因為在這些語言中,機器翻譯的質量可能不太好。盡管如此,將自動翻譯的數據添加到訓練中也能夠大大提高這些語言上任務型對話系統的準確性,超過了僅用少量人工構建數據訓練的效果。

0e01c3ce-1bd5-11ee-962d-dac502259ad0.png

圖5:零樣本Turn by Turn Evaluation的結果

0e1e9274-1bd5-11ee-962d-dac502259ad0.png

圖6:少樣本Turn by Turn Evaluation的結果

Full Conversation Evaluation:在這種設定下,對于每個輪次,模型從上一個子任務的輸出中獲取輸入,用于下一個子任務。這反映了與用戶進行交互式對話時的實際情況。結果顯示,在零樣本設置中,性能同樣因語言而異,其中英語、法語、印地語、韓語和英語-印地語的對話成功率分別達到了使用完整數據訓練的中文對話模型的35%、16%、9%、11%和4%。在少-shot設置中,這個比率提高到了38%、26%、25%、23%和5%。可以看到,最小和最大的改進分別在英語和印地語數據集上。這表明,當預訓練數據的質量較低時,少樣本數據的影響更大,這可能與中文和目標語言之間的翻譯模型的質量有關。

0e35674c-1bd5-11ee-962d-dac502259ad0.png

圖7:零樣本full conversation evaluation的結果

0e570546-1bd5-11ee-962d-dac502259ad0.png

圖8:少樣本full conversation evaluation的結果

4.

結語

我們構建了X-RiSAWOZ,這是一個新的端到端、高質量、大規模的多領域多語種對話數據集,其涵蓋了5種不同的語言和1種語碼混合場景,以及一個工具包,以便將數據翻譯成其他語言。我們還為跨語言遷移的零/少樣本對話系統提供了強大的基線系統。總體而言,我們的工作為更高效、更具成本效益的多語言任務型對話系統的開發鋪平了道路。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4780

    瀏覽量

    101175
  • 機器翻譯
    +關注

    關注

    0

    文章

    139

    瀏覽量

    14947
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24835

原文標題:開源數據 | X-RiSAWOZ: 高質量端到端多語言任務型對話數據集

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    多語言開發的流程詳解

    現在不少應用都是要求有多語言切換的, 使用QT開發上位機也同樣需要做多語言功能, 不過QT是自帶了多語言翻譯功能, 可以很方便的借助原生工具進行, 下面就簡單來看看多語言開發的流程!
    的頭像 發表于 11-30 09:08 ?1164次閱讀

    高質量C語言編程

    高質量c語言,精,精,精,精華
    發表于 07-22 13:48

    編寫高質量C語言代碼

    編寫高質量C語言代碼 編寫高質量C語言代碼 編寫高質量C語言代碼
    發表于 07-31 17:47

    林銳《高質量C語言編程》

    林銳《高質量C語言編程》
    發表于 08-17 12:10

    高質量編程

    干貨,《495個C語言問題》、《華為內部程序設計編碼規范》、《C語言:陷阱和缺陷》、《高質量C編程[林銳]》
    發表于 02-27 19:39

    XMOS推出用于高質量音頻再現的數字iPhone 底座

    XMOS推出用于高質量音頻再現的數字iPhone 底座參考設計 英國布里斯托美國加州桑尼韋爾- 2010年2月23日,XMOS推出一套適合iPhone
    發表于 02-23 16:54 ?859次閱讀

    SoC多語言協同驗證平臺技術研究

    SoC基于IP設計的特點使驗證項目中多語言VIP(Verification IP)協同驗證的需求不斷增加,給驗證工作帶來了很大的挑戰。為了解決多語言VIP在SoC驗證環境靈活重用的問題。提出了一種
    發表于 12-31 09:25 ?12次下載

    Mozilla使用開源Common Voice語音識別數據進行多語言操作

    Mozilla 宣布它正在使其眾包項目 Common Voice 支持更多語言。Common Voice 是一個旨在創建開源語音識別數據的項目,于去年6月發布,它邀請來自世界各地的志愿者通過網絡和移動應用程序,用他們的聲音記錄
    的頭像 發表于 06-12 11:18 ?4685次閱讀

    2021年OPPO開發者大會 生成式對話模式

    2021年OPPO開發者大會劉海鋒:生成式對話模式,基于UniLM和一對多語料的生成式聊天模型滿足用戶需求。
    的頭像 發表于 10-27 14:59 ?2509次閱讀
    2021年OPPO開發者大會 <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>生成式<b class='flag-5'>對話</b>模式

    如何創建高質量、大規模、多語言數據

    方法更利于產生更高質量數據,但高強度的人工注釋過程限制了可創建的數據量。另一方面,雖然自動提取方法可以產生更大的數據,但卻需要通過啟發式
    的頭像 發表于 10-29 10:22 ?2275次閱讀

    Multilingual多語言預訓練語言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM預訓練多語言模型,整體思路基于BERT,并提出了針對多語言預訓練的3個優化任務。后續很多
    的頭像 發表于 05-05 15:23 ?3055次閱讀

    多語言任務在內的多種NLP任務實現

    WeLM是一個百億級別的中文模型,能夠在零樣本以及少樣本的情境下完成包括對話-采訪、閱讀理解、翻譯、改寫、續寫、多語言閱讀理解在內的多種NLP任務,并具備記憶能力、自我糾正和檢查能力。
    發表于 10-13 11:52 ?661次閱讀

    基于的單噪聲圖像降噪和校正網絡實現高質量的車牌識別

    具有挑戰性的LPR數據AOLP-RP和VTLPs進行了大量的實驗,證明了我們提出的方法的有效性,并且在從低質量的車牌圖像中恢復高質量的車牌圖像時本方法優于其他的SOAT方法。
    的頭像 發表于 12-13 09:58 ?1048次閱讀

    如何構建高質量的大語言模型數據

    構建高質量的大語言模型數據是訓練強大自然語言處理模型的關鍵一步。以下是一些關鍵步驟和考慮因素,有助于創建具有多樣性、準確性和時效性的
    的頭像 發表于 09-11 17:00 ?1711次閱讀

    ChatGPT 的多語言支持特點

    )技術迎來了巨大的挑戰和機遇。ChatGPT,作為一個領先的語言模型,其多語言支持的特點成為了它在眾多應用場景中不可或缺的優勢。 1. 多語言理解能力 ChatGPT 的多語言支持首先
    的頭像 發表于 10-25 17:30 ?904次閱讀
    八卦24山| 百家乐官网有技巧么| 百家乐官网娱乐网代理佣金| 大发888娱乐场下载最高| 百家乐官网几点不用补| 罗城| 百家乐扑克桌| 百家乐官网平台信誉| 百家乐怎么玩请指教| 百家乐官网保单破解方法| 红宝石百家乐娱乐城| 百家乐官网打线| 大发888娱乐城手机版| 百家乐规则澳门| 百家乐官网赌术揭秘| 网页百家乐的玩法技巧和规则 | 永利高百家乐官网怎样开户| 大发888注册优惠代码| 百家乐现实赌场| 百家乐官网投注技巧球讯网| 利高百家乐官网的玩法技巧和规则 | 赙彩百家乐官网游戏规则| 大发888老虎机下载| 百家乐游戏官网| 澳门百家乐官网庄闲的玩法| 太阳城娱乐城申博| 百家乐全讯网娱乐城| 网络百家乐官网真假| 大发888国际娱乐bet| 24山天机申山寅向择日| 任我赢百家乐官网自动投注分析系统| 威尼斯人娱乐城骰宝| 百家乐下注技术| 百家乐官网荷官培训| 波胆网站| 机械手百家乐的玩法技巧和规则| 芝加哥百家乐官网的玩法技巧和规则| 博马百家乐官网娱乐城| 大发扑克官方网站| 威尼斯人娱乐场色碟| 网络百家乐破解器|