博彩平台第三方支付,途游棋牌官方网址,豪博娱乐场官网正规网址(中国)·官方网站

NLP領域知名博主Sebastian Ruder近日公開了他的博士論文，總共 329 頁，他認為更明確的遷移學習是解決訓練數據不足和提高自然語言處理模型下游性能的關鍵，并展示了支持該假設的相關領域、任務和語言遷移知識的實驗結果。這篇論文是了解 NLP 遷移學習非常好的文獻。

Sebastian Ruder 是 NLP 領域知名博主（ruder.io），近期他從愛爾蘭國立大學博士畢業并加入了 DeepMind。

3 月 23 日，他的博士論文《面向自然語言處理的神經網絡遷移學習》公開，總共 329 頁。

Sebastian Ruder

在論文中，他認為更明確的遷移學習是解決訓練數據不足和提高自然語言處理模型下游性能的關鍵，并展示了支持該假設的相關領域、任務和語言遷移知識的實驗結果。這篇論文是了解 NLP 遷移學習非常好的文獻。

論文摘要

當前，基于神經網絡的自然語言處理模型擅長從大量標記數據中學習。鑒于這些功能，自然語言處理越來越多地應用于新任務、新領域和新語言。然而，當前的模型對噪聲和對抗性示例敏感，并且易于過度擬合。這種脆弱性，加上注意力的成本，對監督學習范式提出了挑戰。

遷移學習使得我們能夠利用從相關數據中獲取的知識，提高目標任務的性能。以預訓練詞表征形式進行的隱式遷移學習一直是自然語言處理中的常見組成部分。

本文認為，更明確的遷移學習是解決訓練數據不足和提高自然語言處理模型下游性能的關鍵。我們展示了支持該假設的相關領域、任務和語言轉移知識的實驗結果。

我們為自然語言處理的遷移學習做出了一些貢獻：

首先，我們提出了新的方法來自動選擇監督和無監督的領域適應的相關數據。

其次，我們提出了兩種新的架構，改善了多任務學習中的共享，并將單任務學習提升到最先進的水平。

第三，我們分析了當前模型對無監督跨語言遷移的局限性，提出了一種改善方法，以及一種新的潛變量跨語言詞嵌入模型。

最后，我們提出了一個基于微調語言模型的序列遷移學習框架，并分析了適應階段。

論文簡介

1.1 動機

語言通常被認為是人類智力的標志。開發能夠理解人類語言的系統是人工智能的主要障礙之一，該目標推動了人工智能，特別是自然語言處理和計算語言學研究。隨著語言滲透到人類生存的每個方面，最終，自然語言處理是計算機在增強人類智能方面發揮其全部潛力所必需的技能。

早期針對這一難以捉摸的目標的象征性方法是試圖利用人類編寫的規則來捕捉文本的含義。然而，這種基于規則的系統很脆弱，并且僅限于它們為 [Winograd，1972] 設計的特定領域。它們通常無法處理意外或看不見的輸入，最終被證明限制性太強，無法捕捉到自然語言的復雜性 [國家研究委員會和自動語言處理咨詢委員會，1966 年]。

在過去 20 年中，自然語言處理的統計方法 [Manning 等人，1999 年] 已經變得司空見慣，它使用數學模型自動從數據中學習規則。因此，我們應該將人力投入到創建新的特征中去，用于指示模型在預測時應該考慮的數據中的連接和關系，而不是去編寫規則。然而，特征工程非常耗時，因為這些特征通常是針對特定任務的，而且需要相關領域的專業知識。

在過去五年中，深度神經網絡 [Krizhevsky 等人，2012 a, Goodfellow 等人，2016] 作為機器學習模型的一個特殊類別，已經成為從數據中學習的首選模型。這些模型通過對一個多層次特征結構的學習，減少了對特征工程的需求。因此，人力投入的重點集中于為每項任務確定最合適的架構和訓練設置。

在自然語言處理以及機器學習的許多領域，訓練模型的標準方法是對大量的示例進行注釋，然后提供給模型，讓其學習從輸入映射到輸出的函數。這被稱為監督學習。對于每項任務，如分析文本的句法結構、消除單詞歧義或翻譯文檔，都是從零開始訓練新模型。來自相關任務或領域的知識永遠不會被組合在一起，模型總是從隨機初始化開始 tabula rasa。

這種從空白狀態中去學習的方式與人類習得語言的方式截然不同。人類的語言學習并非孤立進行，而是發生在豐富的感官環境中。兒童通過與周圍環境的互動 [Hayes 等人，2002 年]，通過持續的反饋和強化 [Bruner, 1985 年] 來學習語言。

然而，最近基于深度神經網絡的方法通過對從幾十萬到數百萬對輸入 - 輸出組合 (如機器翻譯) 的學習，在廣泛的任務上取得了顯著的成功 [Wu 等人，2016 年]。鑒于這些成功，人們可能會認為沒有必要偏離監督學習的范式，因此沒有必要創建受人類語言習得啟發的算法。畢竟，大自然為我們提供的是靈感而非藍圖；例如，人工神經網絡只是受到人類認知的松散啟發 [Rumelhart 等人，1986 年]。

最近的研究 [Jia 和 Liang, 2017 年，Belinkov 和 Bisk, 2018 年] 表明，當前算法的脆弱程度與早期基于規則的系統類似：它們無法概括出其在訓練期間看到的數據以外的東西。這些算法遵循它們訓練的數據的特征，并且在條件發生變化時無法適應。

人類的需求是復雜的，語言是多種多樣的；因此，不斷有新的任務 - 從識別法律文件中的新先例，到挖掘看不見的藥物間的相互作用，再到路由支持電子郵件等等，這些都需要使用自然語言處理來解決。

自然語言處理還有望幫助彌合造成網路信息和機會不平等的數字語言鴻溝。為實現這一目標，這些模型除英語之外，還需要適用于世界 6, 000 種語言。

為了獲得一個在以前從未見過的數據上表現良好的模型（無論是來自新的任務，領域還是語言），監督學習需要為每個新的設置標記足夠的示例。

鑒于現實世界中的語言、任務和域名過多，為每個設置手動注釋示例是完全不可行的。因此，標準監督學習可能會由于這些現實挑戰的存在而遭遇失敗。

通過將知識從相關領域、任務和語言轉移到目標設置，遷移學習將有望扭轉這種失敗。

事實上，遷移學習長期以來一直是許多 NLP 系統的潛在組成部分。NLP 中許多最基本的進步，如潛在語義分析 [Deerwester 等人，1990 年]、布朗聚類[Brown 等人，1993b] 和預訓練的單詞嵌入 [Mikolov 等人，2013a] 均可被視為遷移學習的特殊形式，作為將知識從通用源任務轉移到更專業的目標任務的手段。

在本文中，我們認為將 NLP 模型的訓練定義為遷移學習而非監督學習，有助于釋放新的潛力，使我們的模型能夠得到更好的推廣。我們證明我們的模型優于現有的遷移學習方法以及不遷移的模型。

為此，我們開發了針對各種場景跨域、任務和語言進行轉換的新模型，并且證明了我們的模型在性能上比現有的遷移學習方法和非遷移的模型都要優越。

1.2 研究目標

本文研究了使用基于神經網絡的自然語言處理方法在多個任務、領域和語言之間進行遷移的自動表征學習問題。

本文的主要假設如下：

自然語言處理中的深層神經網絡會利用來自相關域、任務和語言的現有相關信息，其性能優于在各種任務中不使用此信息的模型。

換句話說，我們認為在大多數情況下，遷移學習優于監督學習，但有兩點需要注意：

1.當已經有足夠數量的訓練實例時，遷移學習可能沒有那么大的幫助；

2.如果沒有相關信息，遷移學習可能就不那么有用了。

為了解決第一個方面，我們分析了遷移學習的幾個功能。第二點暗示了本論文中反復出現的主題：遷移學習的成功取決于源的設置與目標設置的相似性。

總而言之，我們列出了五個需求，這些需求將通過本文提出的方法來解決：

1.克服源設置和目標設置之間的差異：該方法應克服源設置和目標設置之間的差異。許多現有方法只有在源和目標設置相似時才能很好地工作。為了克服這一挑戰，我們提出了方法用于：選擇相關示例、利用弱監督、靈活地跨任務共享參數、學習通用表示和分析任務相似性。

2.誘導歸納偏差：該模型應該誘導歸納偏差，從而提高其推廣能力。我們采用的歸納偏差包括半監督學習、對正交約束的多任務學習、弱監督、匹配的先驗關系、層次關系和預先訓練過的表示。

3. 將傳統方法和當前方法相結合：該模型應該從經典工作中汲取靈感，以便克服最先進方法中的局限性。我們提出了兩種模型，明確地結合了兩方面的優點，即傳統方法優勢和神經網絡方法的優勢。

4.在 NLP 任務的層次結構中進行遷移：該方法應該在 NLP 任務的層次結構中遷移知識。這包括在低級別和高級別任務之間進行共享，在粗粒度和細粒度的情感任務之間進行共享，以及從通用任務遷移到各種各樣的任務中。

5.推廣到多個設置：該方法應該能夠推廣到許多不同的設置之上。為了測試這一點，我們在多種任務、領域和語言中評估相關方法。

1.3 貢獻

在本文中，我們將重點討論 NLP 遷移學習的三個主要方面：跨領域遷移、跨任務遷移和跨語言遷移。

根據源和目標任務的性質、領域和學習順序的不同，這三個維度可以自然地分為四個不同的遷移學習設置：領域適應、跨語言學習、多任務學習和序列遷移學習。我們在表 1.1 中展示了本文的貢獻是如何與這四種設置相關聯的。

本論文的貢獻可以分為理論、實踐和實證三個方面。

在理論貢獻方面：

我們提供了反映自然語言處理中最常見的遷移學習設置的分類方法；

我們展示了學習在單詞級別上優化類似目標的跨語言詞嵌入模型；

我們分析了無監督跨語言嵌入模型的理論局限性；

我們展示了如何將現有的跨語言嵌入方法視為一個潛變量模型；

我們提出了一個理論框架，將現有架構推廣到多任務學習。

在實踐貢獻方面：

我們對自然語言處理中最常見的四種遷移學習設置進行了廣泛的回顧：多任務學習、序列遷移學習、領域適應和跨語言學習；

我們提出了一種新的基于特征向量的度量方法，以衡量兩種語言之間無監督雙語詞典歸納的可能性；

我們提供了適應預訓練表征的指南；

我們開源了我們的代碼。

我們最終做出以下實證貢獻：

我們提出了一個模型，它自動學習如何選擇與特定目標領域相關的訓練實例；

我們將半監督學習方法與神經網絡相結合，并將其與最先進的方法進行比較；

我們提出了一種受 tri-training 啟發的更有效的半監督學習方法；

我們實證分析了無監督跨語言詞嵌入模型的局限性；

我們提出了一個新的雙語詞典歸納的潛變量模型；

我們提出了一個新的多任務學習模型，可以自動學習在不同任務之間共享哪些層；

我們提出了一個新的多任務學習模型，它集成了來自不同標簽空間的信息；

我們提出了一個新的順序遷移學習框架，它采用預先訓練的語言模型和新的微調技術；

我們將兩種流行的適應方法與各種任務中最先進的預先訓練表示進行比較。

1.4 論文大綱

在第 2 章中，概述了與理解本文內容有關的背景資料們，回顧了概率和信息論以及機器學習的基礎知識，并進一步討論了自然語言處理中基于神經網絡的方法和任務。

在第 3 章中，定義了遷移學習，并提出了一個 NLP 遷移學習的分類方法。然后，詳細回顧了四種遷移學習場景：領域適應、跨語言學習、多任務學習和序列遷移學習。

以下各章重點介紹了這些方案中的每一個方案。在每一章中，介紹相應設置的新方法，這些方法的性能都優于基準數據集上目前最先進的設置方法。

第 4 章介紹了在領域適應數據選擇方面的工作。對于受監督的領域適應，提出了一種使用貝葉斯優化來學習從多個域中選擇相關訓練實例的策略方法。對于無監督領域適應，將經典的半監督學習方法應用于神經網絡，并提出了一種 tri-training 啟發的新方法。這兩種方法都旨在根據半監督學習模型選擇與目標領域相似或可靠且信息豐富的相關實例。

在第 5 章中，首先分析了無監督跨語言單詞嵌入模型的局限性。研究發現，現有的無監督方法在語言不同的環境中不再有效，并提供了一種弱監督的方法來改善這種情況。進一步提出了一種具有正則匹配的潛變量模型，該模型適用于低資源語言。此外，在潛變量的幫助下，為現有的跨語言單詞嵌入模型提供了一個新的視角。

在第 6 章中，提出了兩種新穎的體系結構，可以改善多任務學習中任務之間的共享。在多任務學習中，當任務不一致時，目前諸如硬參數共享等方法將會失效。

第一種方法通過允許模型了解應該共享任務之間的信息程度來克服這一點。

第二種方法包含來自其他任務的標簽空間的信息。

在第 6 章中，提出了兩種新的架構，以改善多任務學習中任務之間的共享。在多任務學習中，當任務不相似時，目前諸如硬參數共享等方法將會失效。第一種方法是通過允許模型學習任務之間的信息應該在多大程度上共享來克服這一點。第二種方法則集成了來自其它任務的標簽空間信息。

在第 7 章中，重點介紹了序列遷移學習中先前被忽略的適應階段。首先提出了一個基于語言建模和新的適應技術的新框架。其次，用最先進的預訓練表示來分析適應性。發現任務相似度發揮著重要作用，并為從業者提供指導。

第 8 章最后總結包含了結論、發現，并提供了對未來的展望。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4779

瀏覽量
101166
自然語言處理

自然語言處理

+關注

關注
1

文章
619

瀏覽量
13646
遷移學習

遷移學習

+關注

關注
0

文章
74

瀏覽量
5588

原文標題：DeepMind網紅博士300頁論文出爐：面向NLP的神經遷移學習（附下載）

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

自然語言處理與機器學習的關系自然語言處理的基本概念及步驟

自然語言處理（Natural Language Processing，簡稱NLP）是人工智能和語言學領域的一個分支，它致力于研究如何讓計算機能夠理解、解釋和生成人類語言。機器

發表于 12-05 15:21 ?719次閱讀

卷積神經網絡在自然語言處理中的應用

自然語言處理是人工智能領域的一個重要分支，它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發展，卷積神經網絡（CNNs）作為

發表于 11-15 14:58 ?343次閱讀

循環神經網絡在自然語言處理中的應用

自然語言處理（NLP）是人工智能領域的一個重要分支，它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發展，循環神經網絡（RN

發表于 11-15 09:41 ?359次閱讀

使用LSTM神經網絡處理自然語言處理任務

自然語言處理（NLP）是人工智能領域的一個重要分支，它旨在使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發展，特別是循環神經網絡（

發表于 11-13 09:56 ?485次閱讀

自然語言處理與機器學習的區別

在人工智能的快速發展中，自然語言處理（NLP）和機器學習（ML）成為了兩個核心的研究領域。它們都致力于解決復雜的問題，但側重點和應用場景有所不同。 1. 自然語言

發表于 11-11 10:35 ?758次閱讀

自然語言處理前饋網絡綜述

自然語言處理（NLP）前饋網絡是人工智能和語言學領域的一個重要交叉學科，旨在通過計算機模型理解和處理人類

發表于 07-12 10:10 ?383次閱讀

怎么對神經網絡重新訓練

重新訓練神經網絡是一個復雜的過程，涉及到多個步驟和考慮因素。引言 神經網絡是一種強大的機器學習模型，廣泛應用于圖像識別、自然語言處理、語音

發表于 07-11 10:25 ?526次閱讀

基于神經網絡的語言模型有哪些

基于神經網絡的語言模型（Neural Language Models, NLMs）是現代自然語言處理（NLP）領域的一個重要組成部分，它們通過神經網

發表于 07-10 11:15 ?867次閱讀

前饋神經網絡在自然語言處理中的應用

自然語言處理（Natural Language Processing, NLP）作為人工智能領域的一個重要分支，旨在讓計算機能夠理解和處理人類語言。隨著深度

發表于 07-08 17:00 ?445次閱讀

循環神經網絡的應用場景有哪些

循環神經網絡（Recurrent Neural Network，簡稱RNN）是一種具有記憶功能的神經網絡，能夠處理序列數據，廣泛應用于自然語言處理

發表于 07-04 14:39 ?1646次閱讀

用于自然語言處理的神經網絡有哪些

自然語言處理（Natural Language Processing, NLP）是人工智能領域的一個重要分支，旨在讓計算機能夠理解和處理人類語言。隨著深度

發表于 07-03 16:17 ?1404次閱讀

深度學習與卷積神經網絡的應用

到自然語言處理，深度學習和CNN正逐步改變著我們的生活方式。本文將深入探討深度學習與卷積神經網絡的基本概念、工作原理及其在多個領域的應用，并

發表于 07-02 18:19 ?1048次閱讀

卷積神經網絡的原理是什么

卷積神經網絡（Convolutional Neural Network，簡稱CNN）是一種深度學習模型，廣泛應用于圖像識別、語音識別、自然語言處理等領域。本文將詳細介紹卷積

發表于 07-02 14:44 ?805次閱讀

神經網絡架構有哪些

、語音識別、自然語言處理等多個領域。本文將對幾種主要的神經網絡架構進行詳細介紹，包括前饋神經網絡、循環神經網絡、卷積

發表于 07-01 14:16 ?863次閱讀

神經網絡在自然語言處理中的應用

自然語言處理（NLP）是人工智能領域中的一個重要分支，它研究的是如何使計算機能夠理解和生成人類自然語言。隨著人工智能技術的飛速發展，神經網絡在自然語

發表于 07-01 14:09 ?593次閱讀

那曲檬骨新材料有限公司

搜索歷史

博士論文《面向自然語言處理的神經網絡遷移學習》公開

評論

自然語言處理與機器學習的關系自然語言處理的基本概念及步驟

卷積神經網絡在自然語言處理中的應用

循環神經網絡在自然語言處理中的應用

使用LSTM神經網絡處理自然語言處理任務

自然語言處理與機器學習的區別

自然語言處理前饋網絡綜述

怎么對神經網絡重新訓練

基于神經網絡的語言模型有哪些

前饋神經網絡在自然語言處理中的應用

循環神經網絡的應用場景有哪些

用于自然語言處理的神經網絡有哪些

深度學習與卷積神經網絡的應用

卷積神經網絡的原理是什么

神經網絡架構有哪些

神經網絡在自然語言處理中的應用