那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

稠密向量檢索的Query深度交互的文檔多視角表征

深度學習自然語言處理 ? 來源:NLP工作站 ? 作者:NLP工作站 ? 2022-08-18 15:37 ? 次閱讀

今天給大家帶來一篇北航和微軟出品的稠密向量檢索模型Dual-Cross-Encoder,結合Query生成和對比學習技術,將文檔與生成的不同偽query進行深度交互學習構建文檔的不同視角的表征向量,再與Query向量進行稠密向量檢索。

Paper:https://arxiv.org/pdf/2208.04232.pdf
Github:https://github.com/jordane95/dual-cross-encoder

介紹

目前,稠密向量檢索已經在信息檢索中起著至關重要的地位,相較于傳統的BM25,它可以更好地獲取問題與文檔之間的語義信息。針對query和document的相關性評分主要有Dual-Encoder和Cross-Encoder兩種框架:

Cross-Encoder,由于計算量太大,無法在召回階段使用;

Dual-Encoder,由于query和document沒有相互,并且無法很好地表現長文檔中的多主題內容。

一些研究(Poly-Encoder、ColBERT等)致力于用后期交互體系結構,權衡模型的速度與效果,但「無法直接使用ANN進行排序」。與之前的工作不同,我們主要使用生成的query來學習查詢通知的文檔表示。d016835e-1ea7-11ed-ba43-dac502259ad0.png我們提出了一種新的稠密檢索模型,使用生成的偽query與每個文檔進行深度交互編碼,以獲得融合query信息的多視角文檔表示,并單獨編碼query向量,使得該模型不僅像普通的Dual-Encoder模型一樣具有很高的推理效率,而且在文檔編碼中與query深度交互,提供多視角表示,以更好地匹配不同的查詢query。

Dual-Cross-Encoder模型

Dual-Cross-Encoder中,文檔編碼器部分為Cross-Encoder,而問題編碼器與文檔編碼器之間的模式相當于Dual-Encoder。具體來說,問題編碼器為

文檔編碼器為

它們之間相似性是通過點積來衡量的,

注意,來自問題編碼器和文檔編碼器的query是不相同的,因為只能訪問到訓練集中的文檔的標準query,并且手動編寫整個語料庫中的每個文檔可能出現的query是不現實的。

因此,使用T5模型,依賴doc2query技術為每個文檔生成若干偽query,并在解碼時采用Top-K方式,保證query的多樣性。

模型訓練

采用對比學習的方式訓練模型,而對比學習的宗旨就是拉近相似數據,推開不相似數據,有效地學習數據表征。

將query信息融合到文檔表示中后,重新定義正例和負例,對于給定,四種形式的正負例,為、、和。

難負例:負文檔從通過BM25排名靠前的文檔中隨機抽取得來。難負例可以使模型學習到更細粒度的信息,如負文檔通常與query有關,但不能準確回答,并且還阻止模型只學習來自query端的匹配信號,而忽略文檔端信息。

批次內負例:可以提高訓練效率,使模型學習到主題層次的辨別能力。

訓練階段,使用數據增強的方式,將生成的query視為偽標注數據,首先在這些噪聲數據上,進行模型訓練,視作一個熱身階段;然后在真實標注的高質量訓練集上進行模型微調。

模型推理

創建索引

對語料庫進行編碼,以獲得具有query深度交互的多視圖文檔表示。將表示為第個文檔的第個視圖,

其中,表示Query生成模型。

檢索

當進行檢索時,使用問題編碼器對其進行編碼,獲取上下文表征向量。對文檔進行多視角向量編碼,并將其問題與文檔中不同視角相關性得分的最大值(max-pooling)作為問題與文檔的相關性得分。

支持直接使用ANN進行排序。

實現細節

在8塊32GB V100上進行模型訓練,采用bert-base-uncase初始化所有編碼器,query最大長度為16,文檔最大長度為128,每個樣本的正例和負例數量對比為1:7。訓練的Batch-Size大小為32,學習率為5e?6,warmup10%的步數。

結果

從下表中可以看出,相較于DPR Dual-Encoder,具有顯著提高,證明了方法的有效性;并媲美Col-Bert模型,同時更高效。d0388026-1ea7-11ed-ba43-dac502259ad0.png從下圖可以看出,query生成質量與檢索呈正相關。d062b1ca-1ea7-11ed-ba43-dac502259ad0.png

總結

挺有意思一篇文章,通過偽query來表征不同視角的文檔,并且支持ANN排序?,F在越來越多的長文檔表征論文從多個不同視角出發,單一向量確實很難表達出多種差異較大的信息,甚至訓練中會導致趨同。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3667

    瀏覽量

    135237
  • 框架
    +關注

    關注

    0

    文章

    403

    瀏覽量

    17542
  • Query
    +關注

    關注

    0

    文章

    11

    瀏覽量

    9384
  • 模型
    +關注

    關注

    1

    文章

    3305

    瀏覽量

    49217

原文標題:Dual-Cross-Encoder:面向稠密向量檢索的Query深度交互的文檔多視角表征

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于模糊聚類表征的音頻例子檢索及相關反饋

    避免先前基于例子的音頻檢索要按照監督機制訓練不同類別的復雜的音頻模板,直接從原始音頻流中提取壓縮域特征,使用時空約束機制進行壓縮域特征的模糊聚類,用聚類結果的質心來表征整個音頻例子,基于聚類質心完成
    發表于 03-06 22:10

    什么是Query

    什么是Query  英文縮寫: Query 中文譯名: 查詢 分  類: IP與多媒體 解  釋: 為了在數據庫中尋找某一特定
    發表于 02-23 09:32 ?1039次閱讀

    基于尺度HOG的草圖檢索

    基于興趣點的尺度HOG特征。利用圖像的尺度HOG特征集生成視覺詞典,最終形成與視覺詞典相關的特征描述向量,通過相似度匹配實現草圖檢索。將該算法與單一尺度下的HOG算法及其他幾種算法
    發表于 12-04 09:56 ?0次下載

    熵加權視角核K-means算法

    在基于視角加權的視角聚類中,每個視角的權重取值對聚類結果的精度都有著重要的影V向。針對此問題,提出熵加權
    發表于 12-17 09:57 ?1次下載

    基于最小重構誤差向量圖像檢索算法

    針對局部聚合描述符向量( VLAD)模型中對特征軟量化時權重系數的取值不確定性和特征量化誤差較大問題,提出一種具有最小重構誤差的權重系數分配算法。該算法以最小化重構誤差為標準,將具有最小化重構誤差
    發表于 12-18 09:56 ?0次下載
    基于最小重構誤差<b class='flag-5'>向量</b>圖像<b class='flag-5'>檢索</b>算法

    基于視角相容性的視角數據缺失補全

    隨著信息技術的快速發展,現實生活中不斷涌現出大量的視角數據,由此應運而生的視角學習已成為機器學習領域的研究熱點.然而,在數據獲取過程中,由于收集的難度、高額成本或設備故障等問題,往
    發表于 12-18 10:46 ?1次下載

    基于類支持向量機的深度視頻幀內編碼快速算法

    深度視頻編碼中最優深度劃分和模式選擇過程具有非常高的計算復雜度。提出了基于類支持向量機(MSVM,multi-class support vector machine)的
    發表于 01-31 13:37 ?1次下載
    基于<b class='flag-5'>多</b>類支持<b class='flag-5'>向量</b>機的<b class='flag-5'>深度</b>視頻幀內編碼快速算法

    實現SQL Query項目的詳細資料總結

    文檔的主要內容詳細介紹的是實現SQL Query項目的詳細資料總結。
    發表于 09-25 11:10 ?2次下載

    基于雙峰高斯分布的深度哈希檢索算法

      哈希檢索因為具有存儲空間小、檢索速度快的特點而受到廣泛關注。目前深度哈希算法存在2個主要問題深度哈希編碼本質上是二值化特征,并且編碼長度較短,存在特征表達能力有限的問題;已有的
    發表于 04-29 14:31 ?16次下載
    基于雙峰高斯分布的<b class='flag-5'>深度</b>哈希<b class='flag-5'>檢索</b>算法

    Query是什么意思

    query是請求查詢的意思。
    的頭像 發表于 07-25 16:08 ?2.1w次閱讀

    稠密檢索模型在zero-shot場景下的泛化能力

    稠密檢索任務旨在通過給定的query,在一個龐大的document語料庫中召回與query高度相關的document(本文中document泛指語料庫中的文本內容,可以是句子,段落,文
    的頭像 發表于 05-16 15:06 ?1762次閱讀

    通過Token實現視角文檔向量表征的構建

    該篇論文與前兩天分享的DCSR-面向開放域段落檢索的句子感知的對比學習一文有異曲同工之妙,都是在檢索排序不引入額外計算量的同時,通過插入特殊Token構建長文檔的多語義向量表征,使得同
    的頭像 發表于 07-08 11:13 ?921次閱讀

    機器學習模態落地存在哪些挑戰

    模態技術有著相當廣泛的應用場景,如淘寶搜圖、AI字幕、AI虛擬數字人、仿人交互、智能助手、商品推薦和信息流廣告、視頻幀人臉幀的圖向量檢索、語音交互
    發表于 10-11 15:20 ?1081次閱讀

    能遵循instruction的句向量模型

    向量技術是將連續的文本轉化為固定長度的稠密向量,將句子映射到同一個向量空間中
    的頭像 發表于 06-13 14:56 ?999次閱讀
    能遵循instruction的句<b class='flag-5'>向量</b>模型

    UniVL-DR: 模態稠密向量檢索模型

    模態數據的信息獲取需求在用戶搜索過程中尤為重要。 ▲?圖1. 不同模態檢索框架示意圖 為了實現模態檢索過程,當前的多媒體搜索系統通常采用“分而治之”的方法。如
    的頭像 發表于 08-06 22:00 ?944次閱讀
    UniVL-DR: <b class='flag-5'>多</b>模態<b class='flag-5'>稠密</b><b class='flag-5'>向量</b><b class='flag-5'>檢索</b>模型
    杭州百家乐西园| 真人百家乐官网赢钱| 银河国际娱乐场| 人民币棋牌游戏| 大发888客户端的软件| 大发888下载 大发888游戏平台| 百家乐官网里什么叫洗码| 百家乐官网赌场走势图| 百家乐官网金海岸| 中国百家乐官网的玩法技巧和规则 | 百家乐官网娱乐平台官网网| 德化县| 明升娱乐 | 皇冠平台| 豪博百家乐官网现金网| 百家乐官网棋牌外挂| 百家乐官网赌大小| 24山认龙立向| 最好的百家乐论坛| 百家乐赌场论坛| 免费百家乐倍投软件| 大发888娱乐场手机版| 爱博娱乐| 百家乐官网好不好玩| 百家乐官网概率统计| 三星百家乐官网的玩法技巧和规则 | 大发888国际娱乐| 百家乐官网分析资料| 在线百家乐官网纸牌游戏| 网上赌百家乐官网的玩法技巧和规则 | 百家乐官网哪家信誉好| 百家乐官网扎金花现金| 百家乐电子作弊器| 伟易博百家乐娱乐城| 棋牌英雄传| 菲律宾百家乐官网的说法| 百家乐官网荷| 为什么百家乐官网玩家越来越多选择网上百家乐官网| 中国百家乐游戏| 宝都棋牌下载| 百家乐官网桌出租|