那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

流行基線基礎問題遲遲沒能解決,讓模型學會閱讀理解究竟需要多少文本

zhKF_jqr_AI ? 來源:未知 ? 作者:工程師曾玲 ? 2018-08-18 11:43 ? 次閱讀

編者按:今天,卡內基梅隆大學助理教授Zachary C. Lipton推薦了自己的一個有趣研究:讓模型學會閱讀理解究竟需要多少文本。在之前的ICML 2018研討會上,他和斯坦福大學研究生Jacob Steinhardt曾撰文痛批學界“歪風”,在學界引起巨大反響。其中提到的一個弊端就是有些學者會對“進步”錯誤歸因,把調參獲得的性能改善強加到架構調整上。結合這篇論文,也許他的研究能讓我們獲得一些見解。

摘要

近期,學界發表了不少有關閱讀理解的論文,它們使用的樣本都是(問題、段落、答案)這樣的三元組。對此,一種常規的想法是,如果模型的目標是預測相應答案,它們就必須結合來自問題和段落的信息。這是個很有趣的點,但考慮到現在有數百篇已發表的論文正在爭奪排行榜第一的寶座,圍繞這些流行基線的基礎問題還是遲遲沒能得到解決。

在本文中,我們為bAbI、SQuAD、CBT、CNN和Whodid-What數據集構建了合理的基線,發現如果樣本中只包含純問題或純段落,模型的表現通常會很好。用純段落樣本進行訓練后,模型在14個bAbI問題上取得了高于50%的準確率(一共20個),其中部分結果甚至可以媲美正常模型。

另外,我們也發現了一個奇怪的點:在CBT任務中,研究人員通常會用一個問題和一個包含前20個句子的段落預測第21個句子中的缺失詞,但實驗證實,模型可能只需第21句話就能完成預測。相比之下,CNN和SQuAD這兩個數據集似乎構造得很好。

數據集&基線

流行基線基礎問題遲遲沒能解決,讓模型學會閱讀理解究竟需要多少文本

實驗結果

bAbI任務

下表是基線KV-MemNet在bAbI數據集上的具體表現,第一行使用的是常規樣本,包含問題和段落;第二行只使用問題;第三行只使用段落。可以發現,在第2,7,13,20個問題中,用段落訓練的模型性能驚人,準確率在80%以上。在第3,13,16和20個問題中,它的準確率甚至超過了使用常規樣本的模型。而在第18個問題中,用問題訓練的模型的準確率也達到了91%,和正常的93%非常接近。

這個發現給我們的啟示是,bAbI的某些問題可能并沒有我們想象中那么復雜。

流行基線基礎問題遲遲沒能解決,讓模型學會閱讀理解究竟需要多少文本

CBT任務

CBT任務的“答案”根據詞性可分為命名實體(NE)、公共名詞(CN)、動詞(V)、介詞(P)四類,由于后兩種根據上下文就能預測,通常我們在閱讀理解問題里會更重視前兩種詞性。

同樣是基線KV-MemNet,如下表所示,這次使用的三類樣本成了三列:如果是預測NE和CN,使用完整樣本訓練的模型準確率更高,但用了問題的模型和它也很接近;如果是預測V和P,只用問題訓練效果更佳。

流行基線基礎問題遲遲沒能解決,讓模型學會閱讀理解究竟需要多少文本

那么如果把“段落”從前20個句子改成第21句呢?下表是只用“段落”的實驗結果,可以發現,用最后一句效果更好,也就是說,它和正常模型的性能更接近。

流行基線基礎問題遲遲沒能解決,讓模型學會閱讀理解究竟需要多少文本

CNN任務

在這里,Gated Attention Reader在CNN任務上的準確率就差距較大了。這種下降可能是因為實體匿名化導致模型無法構建特定于實體的信息。

流行基線基礎問題遲遲沒能解決,讓模型學會閱讀理解究竟需要多少文本

SQuAD任務

這個結果表明,SQuAD這個數據集針對閱讀理解任務做了精心設計,它最具挑戰性。

流行基線基礎問題遲遲沒能解決,讓模型學會閱讀理解究竟需要多少文本

討論

從實驗數據可知,雖然同屬閱讀理解任務,但這些數據集存在不同的缺陷,也有各種漏洞可以鉆。下面是我們為評估新的基線和算法設想的一些指導原則。這不是在指責以前的數據集制作者,相反地,這些紕漏能為未來的研究提供不小的價值。

提供嚴格的RC基線:已發布的RC數據集應包含表明任務難度的合理基線,尤其是它們所需的“問題”“段落”信息量,如果沒有這些標準,我們就無法知道模型進步究竟取決于什么。

測試完整信息的必要性:在需要“問題”信息和“段落”信息的問題中,有時候真正起作用的只是部分信息。就像CBT任務,雖然只有二十幾句話,但是我們用最后一句話就能訓練媲美正常性能的模型。每個模型究竟需要多少信息量,這是研究人員應該標明的。

使用完型填空式的RC數據集時,保持謹慎:這類數據集通常是由程序批量制造的,很少有人參與。如果用它們訓練模型,我們會找不到目前技術的局限,也排查不了。

此外,各類會議在推薦收錄論文的數據集時,也應更注重嚴謹性,而不是只看創新性。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3313

    瀏覽量

    49227
  • 基線
    +關注

    關注

    0

    文章

    12

    瀏覽量

    7990

原文標題:基線調研:讓模型學會閱讀理解需要多少信息?

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    STemwin究竟需要多大的內存?

    大家有沒有對STemwin特別了解的,STemwin究竟需要多大的內存?就拿例程
    發表于 05-13 06:37

    【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

    上周收到《大語言模型應用指南》一書,非常高興,但工作項目繁忙,今天才品鑒體驗,感謝作者編寫了一部內容豐富、理論應用相結合、印刷精美的著作,也感謝電子發燒友論壇提供了一個我了解大語言模型和機器學習
    發表于 07-21 13:35

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    今天開始學習《大語言模型應用指南》第一篇——基礎篇,對于人工智能相關專業技術人員應該可以輕松加愉快的完成此篇閱讀,但對于我還是有許多的知識點、專業術語比較陌生,需要網上搜索學習更多的資料才能
    發表于 07-25 14:33

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    信息有助于模型更深入地理解文本的含義和意圖。 3. 推理與判斷 在問答任務中,大語言模型不僅需要理解
    發表于 08-02 11:03

    【「大模型啟示錄」閱讀體驗】對本書的初印象

    解決中。 幸運的是,我看到了論壇上提供的《大模型啟示錄》評測機會,便毫不猶豫地申請了,并且有幸被選中。 拿到這本書時,做工和質量超出了我的預料,這我對書中的內容充滿了期待。 按照我的閱讀習慣,我
    發表于 12-16 14:05

    基于LabVIEW的文本(txt)閱讀

    本帖最后由 zhihuizhou 于 2011-11-25 14:57 編輯 基于LabVIEW的文本(txt)閱讀器,雖然用處不是很大 ,但是還是可以作為labview練習提高自己對labview的認識和理解。。。。基于
    發表于 11-25 14:38

    如何閱讀文本文件?

    嗨團隊,謝謝你總是支持我,但我對閱讀文本文件有一些問題?附件是我需要閱讀文本文件。 BR;希博伊 以上來自于谷歌翻譯 以下為原文Hi T
    發表于 01-29 06:39

    基于文本摘要和引用關系的可視輔助文獻閱讀系統

    近年來,科技論文發表數量與日俱增,科研人員需要閱讀文獻的數量也隨之迅速增長.如何快速而有效地閱讀一篇科技論文,逐漸成為一個重要的研究課題.另一方面,在閱讀科技論文時,
    發表于 01-14 15:19 ?0次下載

    機器閱讀理解的含義以及如何工作

    機器閱讀理解,雖然看起來只是AI上陣來一場考試。但是卻是自然語言處理技術中,繼語音判斷、語義理解之后最大的挑戰:智能體
    的頭像 發表于 01-16 13:47 ?6884次閱讀
    機器<b class='flag-5'>閱讀</b><b class='flag-5'>理解</b>的含義以及如何工作

    剝開機器閱讀理解的神秘外衣

    所謂的機器閱讀理解,基本概念跟咱們上學時做的閱讀理解題很相似,同樣都是給出一段材料和問題,“考生”給出正確答案。所不同的,僅僅是機器
    發表于 03-19 18:47 ?768次閱讀
    剝開機器<b class='flag-5'>閱讀</b><b class='flag-5'>理解</b>的神秘外衣

    如果把中學生的英語閱讀理解選擇題AI來做,會做出什么水平?

    與僅就問題感知或選擇性文章表示進行計算的現有方法不同,DCMN能夠計算文章感知問題表示和文章感知答案表示。為了證明DCMN模型的有效性,我們在大型閱讀理解數據集(即RACE)上評估了模型
    的頭像 發表于 04-19 10:49 ?3505次閱讀

    一種基于多任務聯合訓練的閱讀理解模型

    機器閱讀理解是一項針對給定文本和特定問題自動生成或抽取相應答案的問答任務,該任務是評估計機系統對自然語言理解程度的重要任務之一。相比于傳統的閱讀
    發表于 03-16 11:41 ?10次下載
    一種基于多任務聯合訓練的<b class='flag-5'>閱讀</b><b class='flag-5'>理解</b><b class='flag-5'>模型</b>

    基于LSTM的表示學習-文本分類模型

    文本表示和分類是自然語言理解領域的研究熱點。目前已有很多文本分類方法,包括卷積網絡、遞歸網絡、自注意力機制以及它們的結合。但是,復雜的網絡并不能從根本上提高文本分類的性能,好的
    發表于 06-15 16:17 ?18次下載

    面向文本多片段答案的抽取式閱讀理解模式

    面向文本多片段答案的抽取式閱讀理解模式
    發表于 06-24 16:35 ?6次下載

    深度揭秘工字電感究竟需要測量哪些參數的好壞

    展開剖析一些究竟工字電感要測量哪些參數。工字電感怎么測量好壞,關于測量的方法倒不是這個問題的重點,畢竟測量只需要借助專業的儀器設備就可以了。這個問題的重點是要弄明白究竟需要測量工字電感的哪些信息。根據我
    的頭像 發表于 03-04 20:14 ?908次閱讀
    深度揭秘工字電感<b class='flag-5'>究竟需要</b>測量哪些參數的好壞
    百家乐官网专家赢钱打法| 南平市| 营口市| 大世界百家乐官网娱乐| 百家乐投注助手| 大发888博彩网站xa11| 太阳城77scs| 新田县| 星河百家乐官网的玩法技巧和规则| 百家乐破解辅助| 水果老虎机破解| 赌博中百家乐什么意思| 大发888客户端的 软件| 真人百家乐官网玩法| 百家乐专家赢钱打法| 美女百家乐官网的玩法技巧和规则 | 万豪国际开户| 缅甸百家乐官网的玩法技巧和规则| 新利百家乐的玩法技巧和规则| 现金网排名| 百家乐官网赌场破解| 网络百家乐输了很多钱| 凯斯娱乐| 百家乐官网桌子租| 水果机教程| 百家乐官网网址讯博网| 至尊百家乐下载| 注册娱乐城送体验金| 都坊百家乐官网的玩法技巧和规则 | 来宾市| 百家乐全程打庄| 姚记娱乐城安全| 百家乐官网15人专用桌布| 百家乐大路小路三珠路| 诸城市| 百家乐游戏平台有哪些哪家的口碑最好 | 威尼斯人娱乐场官网326369| 真人百家乐官网免费开户送钱| 百家乐二代理解| 百家乐官网管理启发书| 时时博百家乐娱乐城|