那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習:基于語境的文本分類弱監督學習

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:丁磊 ? 2021-01-18 16:04 ? 次閱讀

高成本的人工標簽使得弱監督學習備受關注。seed-driven 是弱監督學習中的一種常見模型。該模型要求用戶提供少量的seed words,根據seed words對未標記的訓練數據生成偽標簽,增加訓練樣本。

但是由于一詞多義現象的存在,同一個seed word會出現在不同的類別中,從而增加生成正確偽標簽的難度;同時,單詞w在語料庫中的所有位置都使用一個的詞向量,也會降低分類模型的準確性。

而本篇論文主要貢獻有:

開發一種無監督的方法,可以根據詞向量和seed words,解決語料庫中單詞的一詞多義問題。

設計一種排序機制,消除seed words中一些無效的單詞;并將有效的單詞擴充進seed words中。

模型整體結構為:

23886e4c-58b3-11eb-8b86-12bb97331649.png

第一步:使用聚類算法解決語料庫中單詞的一詞多義問題

對于每一個單詞 w, 假設w出現在語料庫的n個不同位置, 分別為 ,使用K-Means算法將分成K類,這里K可理解為單詞w的K個不同解釋。

用下列公式計算K的值:

23bb05f0-58b3-11eb-8b86-12bb97331649.png

其中代表第i個聚類中心的向量。的計算方法如下:

240a0f10-58b3-11eb-8b86-12bb97331649.png

這里s表示一個seed word,且表示s在語料庫第i次出現,對應的詞向量為。

sim() 表示余弦函數,median( )表示取中位數。

則對于任意,有

24453194-58b3-11eb-8b86-12bb97331649.png

綜上,一詞多義問題解決算法如下:

249a483c-58b3-11eb-8b86-12bb97331649.png

使用上面算法,我們就可以將原始語料庫轉變為基于語境下的語料庫:

24f7145e-58b3-11eb-8b86-12bb97331649.png

第二步:對未標記的訓練數據生成偽標簽令表示文檔d的偽標簽;表示類別為的seed word 集合;表示單詞w出現在文檔d的詞頻

2578e2f4-58b3-11eb-8b86-12bb97331649.png

第三步:使用基于語境下的語料庫進行文檔分類

本篇論文使用Hierarchical Attention Networks (HAN) 進行文本分類。

25a2678c-58b3-11eb-8b86-12bb97331649.png

第四步:設計排序函數,更新seed words我們設計出一個打分函數,用于表示單詞w僅高頻的出現在類別為的文檔。分值越高,表示單詞w對類別越重要。我們可以選擇分值最高的前幾個單詞作為新的seed word。也可以剔除一些不重要的seed word。

264f65a4-58b3-11eb-8b86-12bb97331649.png

其中:

268ed78e-58b3-11eb-8b86-12bb97331649.png

表示類別為的文檔的數量。表示類別為且含有單詞w的文檔的數量。表示在類別為的文檔中,單詞w的詞頻。

n為語料庫D的文檔總數目表示語料庫D中含有單詞w的文檔的數量。

結果

我們的完整模型稱為 ConWea,

而 ConWea-NoCon是 ConWea確實缺少第一步的變體。

ConWea-NoExpan是 ConWea確實缺少第四步的變體。

ConWea-WSD是將 ConWea第一步的方法換成Lesk算法。

271870fc-58b3-11eb-8b86-12bb97331649.png

責任編輯:xj

原文標題:【ACL2020】基于語境的文本分類弱監督學習

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 文本分類
    +關注

    關注

    0

    文章

    18

    瀏覽量

    7340
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    133087
  • 深度學習
    +關注

    關注

    73

    文章

    5515

    瀏覽量

    121551

原文標題:【ACL2020】基于語境的文本分類弱監督學習

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    時空引導下的時間序列自監督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列無監督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作,核心在于提出了將空間信息融入到預訓練階段,即在預訓練階段
    的頭像 發表于 11-15 11:41 ?332次閱讀
    時空引導下的時間序列自<b class='flag-5'>監督學習</b>框架

    NPU在深度學習中的應用

    隨著人工智能技術的飛速發展,深度學習作為其核心驅動力之一,已經在眾多領域展現出了巨大的潛力和價值。NPU(Neural Processing Unit,神經網絡處理單元)是專門為深度學習
    的頭像 發表于 11-14 15:17 ?891次閱讀

    GPU深度學習應用案例

    GPU在深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是深度學習
    的頭像 發表于 10-27 11:13 ?506次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習:模型采用自
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    章節最后總結了機器學習分類:有監督學習、無監督學習、半監督學習、自監督學習和強化
    發表于 07-25 14:33

    利用Matlab函數實現深度學習算法

    在Matlab中實現深度學習算法是一個復雜但強大的過程,可以應用于各種領域,如圖像識別、自然語言處理、時間序列預測等。這里,我將概述一個基本的流程,包括環境設置、數據準備、模型設計、訓練過程、以及測試和評估,并提供一個基于Matlab的
    的頭像 發表于 07-14 14:21 ?2447次閱讀

    利用TensorFlow實現基于深度神經網絡的文本分類模型

    要利用TensorFlow實現一個基于深度神經網絡(DNN)的文本分類模型,我們首先需要明確幾個關鍵步驟:數據預處理、模型構建、模型訓練、模型評估與調優,以及最終的模型部署(盡管在本文中,我們將重點放在前四個步驟上)。下面,我將詳細闡述這些步驟,并給出一個具體的示例。
    的頭像 發表于 07-12 16:39 ?957次閱讀

    神經網絡如何用無監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中無監督學習是一種重要的訓練策略。無監督學習旨在從未標記的數據中發現數據內在的結構、模式或規律,從而提取有用的特征表示。這種訓練方
    的頭像 發表于 07-09 18:06 ?896次閱讀

    深度學習中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機器學習深度學習領域的重要任務之一,廣泛應用于人體活動識別、系統監測、金融預測、醫療診斷等多個領域。隨
    的頭像 發表于 07-09 15:54 ?1169次閱讀

    深度學習中的無監督學習方法綜述

    應用中往往難以實現。因此,無監督學習深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的無監督學
    的頭像 發表于 07-09 10:50 ?946次閱讀

    卷積神經網絡在文本分類領域的應用

    在自然語言處理(NLP)領域,文本分類一直是一個重要的研究方向。隨著深度學習技術的飛速發展,卷積神經網絡(Convolutional Neural Network,簡稱CNN)在圖像識別領域取得了
    的頭像 發表于 07-01 16:25 ?813次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練是一個復雜且關鍵的過程,它涉及大量的數據、計算資源和精心設計的算法。訓練一個深度學習模型,本質上是通過優化算法調整模型參數,使模型能夠更好地擬合數據,提高預測或
    的頭像 發表于 07-01 16:13 ?1504次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮中,機器學習深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器學習的范疇,但
    的頭像 發表于 07-01 11:40 ?1540次閱讀

    深度解析深度學習下的語義SLAM

    隨著深度學習技術的興起,計算機視覺的許多傳統領域都取得了突破性進展,例如目標的檢測、識別和分類等領域。近年來,研究人員開始在視覺SLAM算法中引入深度
    發表于 04-23 17:18 ?1380次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學習</b>下的語義SLAM

    為什么深度學習的效果更好?

    導讀深度學習是機器學習的一個子集,已成為人工智能領域的一項變革性技術,在從計算機視覺、自然語言處理到自動駕駛汽車等廣泛的應用中取得了顯著的成功。深度
    的頭像 發表于 03-09 08:26 ?687次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的效果更好?
    百家乐平台凯发| 柘城县| 大世界百家乐官网娱乐网| 百家乐赌博器| 阳曲县| 百家乐娱乐城介绍| 新葡京| 百家乐必胜| 八大胜| 百家乐官网画面方法| 云鼎娱乐城怎么存钱| 永利博百家乐官网的玩法技巧和规则| 大发888娱乐官方下载| 太阳城百家乐官网娱乐官方网| 贵族百家乐的玩法技巧和规则| 百家乐官网h游戏怎么玩| 电脑打百家乐怎么赢| 百家乐官网输了好多钱| 百家乐百博亚洲| 百家乐官网投注网中国体育| 百家乐博欲乐城| 百家乐官网一黑到底| 大发888娱乐场下载客户端| 明陞百家乐官网娱乐城| 皇冠网小说微博| 百家乐开户首选| 至尊百家乐官网下载| 老虎机上分器| 云鼎百家乐官网的玩法技巧和规则 | 大发888娱乐备用网址| 乐宝百家乐官网的玩法技巧和规则| 大发888 casino下载| 百家乐官网路单资料| 百家乐官网旺门打| 威尼斯人娱乐城平台| 打百家乐官网如何赢分| 百家乐怎么推算| 明溪百家乐的玩法技巧和规则| 江北区| 澳门百家乐下注最低| 八大胜开户|