得益于神經(jīng)機(jī)器翻譯 (NMT) 的進(jìn)步,譯文更加自然流暢,但與此同時,這些譯文也反映出訓(xùn)練數(shù)據(jù)存在社會偏見和刻板印象。因此,Google 持續(xù)致力于遵循 AI 原則,開發(fā)創(chuàng)新技術(shù),減少機(jī)器翻譯中的性別偏見。
神經(jīng)機(jī)器翻譯
https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html
其中一個研究領(lǐng)域是利用句子或段落等上下文,來提高性別表述的準(zhǔn)確性。傳統(tǒng) NMT 方法是單獨(dú)翻譯句子,但單獨(dú)的句子中并不是總能帶有對性別信息的明確說明,因此這無疑會帶來挑戰(zhàn)。例如,在下方西班牙語(該語言并不總是明確提及主語 (Null-subject language))段落中,第一句話明確將 Marie Curie 視為主語,但第二句話沒有明確提及主語。孤立來看,第二句話可以指任何性別的人。然而,在翻譯成英語時,需要選擇一個代詞,而翻譯準(zhǔn)確所需的信息就在第一句話中。
西班牙語文本 | 英語譯文 |
Marie Curie nació en Varsovia.Fue la primera persona en recibir dos premios Nobel en distintas especialidades. | Marie Curie was born in Warsaw.Shewas the first person to receive two Nobel Prizes in different specialties. |
如果想推動翻譯技術(shù),讓其不止步于單句翻譯,則需要新指標(biāo)來衡量進(jìn)展,并且需要新數(shù)據(jù)集,其中包括最常見的上下文錯誤。翻譯性別錯誤(如選擇正確的代詞或性別一致)可能直接涉及到人及自我認(rèn)同方式,因此尤其敏感。而這一點(diǎn)則進(jìn)一步加劇了挑戰(zhàn)。
為應(yīng)對上下文翻譯的常見挑戰(zhàn)(如代詞省略、性別一致和準(zhǔn)確使用所有格),我們發(fā)布了 Translated Wikipedia Biographies(維基百科傳記譯本)數(shù)據(jù)集,可用于評估翻譯模型的性別偏見。發(fā)布此數(shù)據(jù)集的目的在于提供衡量模型改變前后的翻譯準(zhǔn)確性的基準(zhǔn),從而對翻譯中代詞和性別的 ML 系統(tǒng)進(jìn)行長期改進(jìn)。
Translated Wikipedia Biographies(維基百科傳記譯本)
https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/Readme.html
常見翻譯錯誤的來源
“維基百科傳記 (Wikipedia:Biographies of living persons) ”經(jīng)過精心撰寫,涵蓋多個地域,包含多個句子,并以第三人稱指代主語(所以包含大量代詞)。因此極有可能出現(xiàn)性別相關(guān)的翻譯錯誤。當(dāng)文章在段落前幾句中明確提及某人,但在后面的句子中沒有明確提及時,通常會出現(xiàn)性別相關(guān)的翻譯錯誤。一些示例如下:
翻譯錯誤 | 文本 | 譯文 |
西班牙語→英語中的代詞省略 (Pro-drop language) |
Marie Curie nació en Varsovia. Recibió el Premio Nobel en 1903 y en 1911. |
Marie Curie was born in Warsaw.Hereceived the Nobel Prize in 1903 and in 1911. |
西班牙語→英語中的中性所有格(Possessive determiner) | Marie Curie nació en Varsovia.Su carrera profesional fue desarrollada en Francia. |
Marie Curie was born in Warsaw.Hisprofessional career was developed in France. |
英語→德語中的性別一致(Grammatical gender) |
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize in 1903 and in 1911. |
Marie Curiewurde in Varsovia geboren.DerangeseheneWissens- chaftlererhielt1903 und 1911den Nobelpreis. |
英語→西班牙語中的性別一致 (Grammatical gender) |
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
|
Marie Curienació en Varsovia.Eldistinguido científicorecibió el Premio Nobel en 1903 y en 1911. |
構(gòu)建數(shù)據(jù)集
如上文所示,Translated Wikipedia Biographies(維基百科傳記譯本)數(shù)據(jù)集旨在分析機(jī)器翻譯中常見的性別表述錯誤。該數(shù)據(jù)集中的每個實例代表個人(在傳記中被認(rèn)為是女性或男性)、搖滾樂隊或運(yùn)動隊(被視為性別無關(guān))。每個實例都均由 8 到 15 個相互關(guān)聯(lián)的句子組成的長文本翻譯來表示,且這些句子中會提到中心主語(人、搖滾樂隊或運(yùn)動隊)。文章撰寫的源語言為英語,并由專業(yè)人士處理,翻譯成西班牙語和德語。我們已針對代詞省略,對西班牙語譯文進(jìn)行優(yōu)化,因此可以使用相同的集合來分析代詞省略(西班牙語→英文)和性別一致(英語→西班牙語)。
我們選擇一組在不同地域和性別之間具有同等代表性的實例構(gòu)建該數(shù)據(jù)集。為此,我們根據(jù)職業(yè)、專業(yè)、工作和/或活動,從維基百科中提取傳記。為了確保職業(yè)選擇的公平性,我們根據(jù)維基百科的統(tǒng)計數(shù)據(jù),選擇了九種職業(yè)。這些職業(yè)代表了一系列刻板的性別聯(lián)想(女性、男性或兩者都不是)。為了減輕任何基于地域的偏見,之后我們根據(jù)不同地域來劃分所有這些實例。對于每個職業(yè)類別,我們希望每個地區(qū)(使用 census.gov 中的地區(qū)作為不同地域的代表)都有一名人選。在關(guān)聯(lián)實例與地區(qū)時,我們會檢查被選者是否與指定地區(qū)的國家具有相關(guān)性(國籍、出生地、長期居住之地等等)。該數(shù)據(jù)集使用此標(biāo)準(zhǔn),包含了來自世界 90 多個國家和所有地區(qū)的個人條目。
雖然性別并非二元化,但我們專注于令“女性”和“男性”實體具有同等代表性。值得一提的是,由于維基百科通過這種方式來表示實體,目前其中的實例還不足以準(zhǔn)確反映非二元群體。因此很遺憾,該集合并不包括標(biāo)識為非二元的個人。為了將每個實例貼上“女性”或“男性”標(biāo)簽,我們依靠的是維基百科上的傳記信息,其中包含對此人特定性別的參考資料(她、他、女人、兒子、父親等)。
在應(yīng)用所有這些過濾條件之后,我們會為每個“職業(yè)-地區(qū)-性別”三元組隨機(jī)選擇一個實例。針對七個地理區(qū)域的每一種職業(yè),我們都挑選了兩份傳記(一份男性傳記和一份女性傳記)。
最后,我們添加了 12 個性別無關(guān)實例。之所以選擇搖滾樂隊和運(yùn)動隊,是因為它們通常由無性別的第三人稱代詞(如“它”或復(fù)數(shù)形式的“它們”)所指代。包含這些實例是為了研究過度觸發(fā) (over triggering),即當(dāng)模型得知其因產(chǎn)生特定性別的代詞而獲得獎勵時,它們會在本不應(yīng)該的情況下產(chǎn)生這些代詞。
結(jié)果和應(yīng)用
該數(shù)據(jù)集為降低機(jī)器翻譯中的性別偏見提供了一種新的評估方法(前一篇文章中已有所介紹)。每個實例都指向已知性別的主語,因此我們可以計算出指向該主語的、特定性別翻譯的準(zhǔn)確性。在翻譯成英語(該語言有代詞省略或中性代詞)時,因為主要計算基于英語的特定性別代詞,所以這種計算更為容易。在這些情況下,與先前模型相比,上下文感知模型利用性別數(shù)據(jù)集,將錯誤數(shù)量減少了 67%。如前所述,我們可利用中性實體,如使用陰性或陽性代詞來指代無性別實體,來發(fā)現(xiàn)過度觸發(fā)的情況。這個新數(shù)據(jù)集還為不同類型的職業(yè)或地理區(qū)域中不同模型的性能提供了新的研究方向。
比如,我們利用該數(shù)據(jù)集,在翻譯自西班牙語的 Marie Curie 傳記節(jié)選中發(fā)現(xiàn)了改進(jìn)之處。
結(jié)論
Translated Wikipedia Biographies(維基百科傳記譯本)數(shù)據(jù)集是我們在研究識別與性別和機(jī)器翻譯有關(guān)的偏見方面的工作成果。該數(shù)據(jù)集側(cè)重于與性別偏見有關(guān)的具體問題,并不旨在涵蓋整個問題。值得一提的是,我們發(fā)布此數(shù)據(jù)集的目的并不在于強(qiáng)調(diào)確定解決性別偏見的最佳方法,而是幫助推動全球研究界在應(yīng)對這一方面挑戰(zhàn)。
致謝
這些數(shù)據(jù)集的構(gòu)建得到了以下人員的幫助:Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster。
責(zé)任編輯:haq
-
谷歌
+關(guān)注
關(guān)注
27文章
6194瀏覽量
106014 -
AI
+關(guān)注
關(guān)注
87文章
31513瀏覽量
270328 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
133080
原文標(biāo)題:用于研究翻譯中性別偏見的數(shù)據(jù)集
文章出處:【微信號:yingjiansanrenxing,微信公眾號:硬件三人行】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
AI助力實時翻譯耳機(jī)
![<b class='flag-5'>AI</b>助力實時<b class='flag-5'>翻譯</b>耳機(jī)](https://file1.elecfans.com/web3/M00/07/0F/wKgZPGeTBkSAKN_4AAAG9-FEI2g792.png)
Google兩款先進(jìn)生成式AI模型登陸Vertex AI平臺
AI大模型的倫理與社會影響
Google AI技術(shù)助力中國品牌出海增長
RISC-V如何支持不同的AI和機(jī)器學(xué)習(xí)框架和庫?
PCB GND設(shè)計原則和注意事項
組成放大電路時必須遵循的原則
組合邏輯電路設(shè)計時應(yīng)遵循什么原則
DeepL推出新一代翻譯編輯大型語言模型
超ChatGPT-4o,國產(chǎn)大模型竟然更懂翻譯,8款大模型深度測評|AI 橫評
![超ChatGPT-4o,國產(chǎn)大模型竟然更懂<b class='flag-5'>翻譯</b>,8款大模型深度測評|<b class='flag-5'>AI</b> 橫評](https://file.elecfans.com/web2/M00/43/7B/pYYBAGJ-B6aAHuNPAAAf8J1Ebk4778.jpg)
評論