那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于選擇機制的自注意力網絡模型

深度學習自然語言處理 ? 來源:博客 ? 作者:哈工大SCIR ? 2020-08-31 10:45 ? 次閱讀

1. 簡介

自注意力網絡(SANs)在許多自然語言處理任務中取得顯著的成功,其中包括機器翻譯、自然語言推理以及語義角色標注任務。相比傳統的循環神經網絡以及卷積神經網絡,自注意力網絡優勢在于其高度的運算并行性以及更加靈活的建模輸入元素的依存關系能力。傳統的自注意力網絡模型在計算每個元素的表示的時候,將所有的輸入的元素考慮在內,而不管其對于當前元素的相關性。本問題提出通用的基于選擇機制的自注意力網絡模型(SSANs),其可以針對每個計算表示的元素,動態地選擇其相關性的子集,以此作為輸入進行后續的自注意力網絡的計算。實驗結果顯示,SSANs模型在多個典型的自然語言處理任務上相比傳統的自注意力網絡模型獲得提升。通過多個探測任務進行分析,SSANs相比傳統的SANs模型有更強的詞序信息編碼能力以及結構信息建模能力。

2. 模型結構

2.1 傳統的自注意力網絡

現在的自注意力網絡是傳統的注意力網路的特例,其計算注意力權重的兩個元素來源同樣的輸入序列。給定輸入隱層表示,自注意力網絡SANs首先將H分別線性變換成、以及。自注意力網絡的輸出O計算過程如下:

其中是基于點積的注意力機制,其計算過程如下:

其中√d是縮放因子且d是隱含層狀態表示的維度。傳統的自注意力網絡結構如圖 1所示。

圖1 傳統的自注意力網絡框架

2.2 基于選擇機制的自注意力網絡

相比傳統的自注意力網絡,本文引入一個選擇器模塊(Selector),其主要針對每個待計算表示的元素,動態地選擇輸入元素的集合中的一個子集作為其相關元素集合,基于此集合進行后續的常規的自注意力網絡的計算,其整體的框架如圖 2所示。

圖2 基本自注意力機制的自注意力網絡框架

選擇器模塊本文使用額外的策略網絡參數化選擇動作,其中表示其對應的元素被選擇進行后續的常規的自注意力網路的計算,而則代表相應的元素未被選中。其輸出動作序列計算過程如下:

其中以及是線性變換的結果。本文使用sigmoid作為激活函數計算策略分布。通過使用額外的選擇器模塊,SSANs的注意力權重計算過程如下:

最終基于選擇機制的自注意力網絡的輸出計算過程如下:

Gumbel-Sigmoid本文使用gumbel-softmax對隱含變量A的梯度進行評估,其主要將離散的采樣過程連續化,這樣使用正常的BP算法就可以實現對其梯度評估。相比REINFORCE算法,其穩定性更高。本文策略網絡使用sigmoid作為激活函數,其可以看作是softmax的特例,從而依據gumbel-softmax函數計算方法,可以推導出gumbel-sigmoid形式如下:

其中G'和G''是gumbel noise。

3 實驗結果

基于選擇機制的自注意力網絡模型在三個典型的NLP任務上取得一致的提升。特別的,在機器翻譯任務上,SSANs在三個英語到其他語言的翻譯上超過傳統的SANs模型。在英語=>羅馬尼亞以及英語=>日語的翻譯任務上,SSANs分別獲得+0.69和+0.61 BLEU提升。此外,在相對規模比較大的英=>德翻譯任務上,SSANs也獲得一致的提升(+0.90 BLEU)。

表1 基于選擇的自注意力網絡模型在不同任務上的結果

4 實驗分析

4.1 詞序信息編碼能力評價

為了評價SSANs的對于局部詞序信息以及全局詞序信息編碼的能力,本文引入兩個特定的檢測任務分別評價模型對于兩種類型信息編碼的能力。其中,局部詞序信息檢測任務目標是分類是否句子中存在兩個相鄰詞的進行交換,而全局詞序信息檢測任務隨機選擇句子中的某個詞語,并將其插入到另一個位置,而任務的目標就是通過分類找到被插入的詞匯以及其原來所在的位置。實驗結果顯示,SSANs在兩個任務上,相比傳統的SANs,均取得較大的提升。通過分析其相應的自注意力網絡權重發現,SSANs能夠根據任務將更多的注意力權重分配到重要的信息建模上。

表2 局部信息檢測任務實驗結果

圖3 局部信息檢測任務注意力權重分布 表3 全局信息檢測任務實驗結果

圖4 全局信息檢測任務注意力權重分布

4.2 結構信息建模能力評價

為了評價SSANs對于結構信息的建模能力,本文首先引入兩個檢測任務評價模型對于結構信息的捕捉能力。其中一個任務目標是測試模型是否可以根據組合語法樹的深度對于輸入的句子進行分類,而另一個任務的目標是對輸入句子按照其組合語法樹根節點之下的成分類型進行分類。實驗結果發現,SSANs在兩種類型的任務上均取得提升,并且對于復雜的問題有更好處理能力。此外,模型根據注意力網絡的權重構建組合語法樹,SSANs構建的語法樹質量好于SANs模型的結果。

表4 組合語法樹深度預測任務實驗結果

表5 組合語法樹成分類型預測任務實驗結果

5 結論

本文提出一種通用的基于選擇機制的自注意力網絡模型,其可以針對每個計算表示的元素,動態地選擇其相關性的子集,以此作為輸入進行后續的自注意力網絡的計算。其在多個自然語言任務上,與傳統的自注意力網絡相比,取得一致提升。通過實驗分析發現,基于選擇機制的自注意力網絡可以在一定程度上緩解注意力網絡存在的詞序信息編碼和結構信息建模能力不足的問題。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器翻譯
    +關注

    關注

    0

    文章

    139

    瀏覽量

    14945
  • 網絡模型
    +關注

    關注

    0

    文章

    44

    瀏覽量

    8488

原文標題:【工大筆記】ACL20 如何使用選擇機制提升自注意力網路能力?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    DeepMind為視覺問題回答提出了一種新的硬注意力機制

    然而,在基于梯度的學習框架(如深度學習)中存在一個關鍵的缺點:因為選擇要處理的信息的過程是離散化的,因此也就是不可微分的,所以梯度不能反向傳播到選擇機制中來支持基于梯度的優化。目前研究人員正在努力來解決視覺注意力、文本
    的頭像 發表于 08-10 08:44 ?6259次閱讀

    深度分析NLP中的注意力機制

    注意力機制越發頻繁的出現在文獻中,因此對注意力機制的學習、掌握與應用顯得十分重要。本文便對注意力機制
    的頭像 發表于 02-17 09:18 ?3904次閱讀

    注意力機制的誕生、方法及幾種常見模型

    簡而言之,深度學習中的注意力機制可以被廣義地定義為一個描述重要性的權重向量:通過這個權重向量為了預測或者推斷一個元素,比如圖像中的某個像素或句子中的某個單詞,我們使用注意力向量定量地估計出目標元素與其他元素之間具有多么強烈的相關
    的頭像 發表于 03-12 09:49 ?4.2w次閱讀

    基于注意力機制的深度興趣網絡點擊率模型

    廣告點擊率(CTR)是互聯網公司進行流量分配的重要依據,針對目前點擊率預估精度較低的問題,結合通用的神經網絡解決方案,構建一種基于注意力機制的深度興趣網絡(ADIN)
    發表于 03-12 10:55 ?5次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的深度興趣<b class='flag-5'>網絡</b>點擊率<b class='flag-5'>模型</b>

    基于注意力機制的深度學習模型AT-DPCNN

    情感分析是自然語言處理領域的一個重要分支,卷積神經網絡(CNN)在文本情感分析方面取得了較好的效果,但其未充分提取文本信息中的關鍵情感信息。為此,建立一種基于注意力機制的深度學習模型A
    發表于 03-17 09:53 ?12次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的深度學習<b class='flag-5'>模型</b>AT-DPCNN

    基于異質注意力的循環神經網絡模型

    表示方法 Transr,分別將文本數據和關系網絡嵌入到高維向量中作為模型的輸入。在編碼器階段,使用雙向GRU將用戶的短期興趣引入到推薦模型中,并將注意力
    發表于 03-19 14:50 ?9次下載
    基于異質<b class='flag-5'>注意力</b>的循環神經<b class='flag-5'>網絡</b><b class='flag-5'>模型</b>

    融合雙層多頭注意力與CNN的回歸模型

    針對現有文本情感分析方法存在的無法高效捕捉相關文本情感特征從而造成情感分析效果不佳的問題提出一種融合雙層多頭注意力與卷積神經網絡(CNN)的回歸模型 DLMA-CNN。采用多頭
    發表于 03-25 15:16 ?6次下載
    融合雙層多頭<b class='flag-5'>自</b><b class='flag-5'>注意力</b>與CNN的回歸<b class='flag-5'>模型</b>

    基于語音、字形和語義的層次注意力神經網絡模型

    神經網絡、雙向門控循環單元和注意力機制提取 PFSHAN模型的語音、字形和語義特征。在特征融合階段,針對不同單詞對幽默語言學特征的貢獻程度不同,且不同幽默語言學特征和語句之間關聯程度不
    發表于 03-26 15:38 ?14次下載
    基于語音、字形和語義的層次<b class='flag-5'>注意力</b>神經<b class='flag-5'>網絡</b><b class='flag-5'>模型</b>

    基于層次注意力機制的多模態圍堵情感識別模型

    識別模型。在音頻模態中加人頻率注意力機制學習頻域上下文信息,利用多模態注意力機制將視頻特征與音頻特征進行融合,依據改進的損失函數對模態缺失問
    發表于 04-01 11:20 ?9次下載
    基于層次<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的多模態圍堵情感識別<b class='flag-5'>模型</b>

    基于多層CNN和注意力機制的文本摘要模型

    基于注意力機制的編解碼模型在文本摘要、杌器翻譯等序列到序列任務上得到了廣泛的應用。在深度學習框架中,深層神經網絡能夠提取輸λ數據不冋的特征表示,因此傳統編解碼
    發表于 04-07 11:35 ?2次下載
    基于多層CNN和<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>的文本摘要<b class='flag-5'>模型</b>

    基于注意力機制等的社交網絡熱度預測模型

    基于注意力機制等的社交網絡熱度預測模型
    發表于 06-07 15:12 ?14次下載

    基于多通道注意力機制的電子病歷架構

    基于多通道注意力機制的電子病歷架構
    發表于 06-24 16:19 ?75次下載

    基于注意力機制的新聞文本分類模型

    基于注意力機制的新聞文本分類模型
    發表于 06-27 15:32 ?30次下載

    基于非對稱注意力機制殘差網絡的圖像檢測

    基于非對稱注意力機制殘差網絡的圖像檢測
    發表于 07-05 15:29 ?9次下載

    計算機視覺中的注意力機制

    計算機視覺中的注意力機制 卷積神經網絡中常用的Attention 參考 注意力機制簡介與分類 注意力
    發表于 05-22 09:46 ?0次下載
    計算機視覺中的<b class='flag-5'>注意力</b><b class='flag-5'>機制</b>
    威尼斯人娱乐城首存| 百家乐官网的保单打法| 大发888 客服| 聚众玩百家乐的玩法技巧和规则| 百家乐官网正品| 百家乐官网英皇娱乐网| 百家乐官网庄河闲的赌法| 博亿娱乐| 爱拼百家乐| 娱网棋牌官方下载| 大发888娱乐城下载最新版| 单机百家乐小游戏| 网上百家乐是叫九五至尊么| 澳门百家乐娱乐开户| 百家乐游戏玩法规则| 玩百家乐怎么才能赢| 真人百家乐888| 哪个百家乐玩法平台信誉好| 百家乐庄闲必胜手段| 百家乐赌场合作| 什么是百家乐平注法| 百家乐换人| 百家乐怎么发牌| 百家乐翻天在线观看| 新全讯网xb112| 大发888bet下载| 金都国际娱乐| 10BET娱乐城| 盈丰娱乐场| 赌球心得| 百家乐真人娱乐城陈小春| 喜达百家乐的玩法技巧和规则| 百家乐技巧平注常赢法| 大发888娱乐城都有啥扑克牌游戏 大发888大发888娱乐城 | 澳门玩百家乐赢1000万| 尊龙百家乐娱乐| 百家乐网上娱乐场开户注册| 威尼斯人娱乐城--老品牌值得您信赖 | 玩百家乐的好处| 六合彩开奖历史记录| 百家乐官网攻略投注法|