今天給大家帶來一篇北航和微軟出品的稠密向量檢索模型Dual-Cross-Encoder,結合Query生成和對比學習技術,將文檔與生成的不同偽query進行深度交互學習構建文檔的不同視角的表征向量,再與Query向量進行稠密向量檢索。
Paper:https://arxiv.org/pdf/2208.04232.pdf Github:https://github.com/jordane95/dual-cross-encoder
介紹
目前,稠密向量檢索已經在信息檢索中起著至關重要的地位,相較于傳統的BM25,它可以更好地獲取問題與文檔之間的語義信息。針對query和document的相關性評分主要有Dual-Encoder和Cross-Encoder兩種框架:
Cross-Encoder,由于計算量太大,無法在召回階段使用;
Dual-Encoder,由于query和document沒有相互,并且無法很好地表現長文檔中的多主題內容。
一些研究(Poly-Encoder、ColBERT等)致力于用后期交互體系結構,權衡模型的速度與效果,但「無法直接使用ANN進行排序」。與之前的工作不同,我們主要使用生成的query來學習查詢通知的文檔表示。我們提出了一種新的稠密檢索模型,使用生成的偽query與每個文檔進行深度交互編碼,以獲得融合query信息的多視角文檔表示,并單獨編碼query向量,使得該模型不僅像普通的Dual-Encoder模型一樣具有很高的推理效率,而且在文檔編碼中與query深度交互,提供多視角表示,以更好地匹配不同的查詢query。
Dual-Cross-Encoder模型
Dual-Cross-Encoder中,文檔編碼器部分為Cross-Encoder,而問題編碼器與文檔編碼器之間的模式相當于Dual-Encoder。具體來說,問題編碼器為
文檔編碼器為
它們之間相似性是通過點積來衡量的,
注意,來自問題編碼器和文檔編碼器的query是不相同的,因為只能訪問到訓練集中的文檔的標準query,并且手動編寫整個語料庫中的每個文檔可能出現的query是不現實的。
因此,使用T5模型,依賴doc2query技術為每個文檔生成若干偽query,并在解碼時采用Top-K方式,保證query的多樣性。
模型訓練
采用對比學習的方式訓練模型,而對比學習的宗旨就是拉近相似數據,推開不相似數據,有效地學習數據表征。
將query信息融合到文檔表示中后,重新定義正例和負例,對于給定,四種形式的正負例,為、、和。
難負例:負文檔從通過BM25排名靠前的文檔中隨機抽取得來。難負例可以使模型學習到更細粒度的信息,如負文檔通常與query有關,但不能準確回答,并且還阻止模型只學習來自query端的匹配信號,而忽略文檔端信息。
批次內負例:可以提高訓練效率,使模型學習到主題層次的辨別能力。
訓練階段,使用數據增強的方式,將生成的query視為偽標注數據,首先在這些噪聲數據上,進行模型訓練,視作一個熱身階段;然后在真實標注的高質量訓練集上進行模型微調。
模型推理
創建索引
對語料庫進行編碼,以獲得具有query深度交互的多視圖文檔表示。將表示為第個文檔的第個視圖,
其中,表示Query生成模型。
檢索
當進行檢索時,使用問題編碼器對其進行編碼,獲取上下文表征向量。對文檔進行多視角向量編碼,并將其問題與文檔中不同視角相關性得分的最大值(max-pooling)作為問題與文檔的相關性得分。
支持直接使用ANN進行排序。
實現細節
在8塊32GB V100上進行模型訓練,采用bert-base-uncase初始化所有編碼器,query最大長度為16,文檔最大長度為128,每個樣本的正例和負例數量對比為1:7。訓練的Batch-Size大小為32,學習率為5e?6,warmup10%的步數。
結果
從下表中可以看出,相較于DPR Dual-Encoder,具有顯著提高,證明了方法的有效性;并媲美Col-Bert模型,同時更高效。從下圖可以看出,query生成質量與檢索呈正相關。
總結
挺有意思一篇文章,通過偽query來表征不同視角的文檔,并且支持ANN排序?,F在越來越多的長文檔表征論文從多個不同視角出發,單一向量確實很難表達出多種差異較大的信息,甚至訓練中會導致趨同。
-
編碼器
+關注
關注
45文章
3667瀏覽量
135237 -
框架
+關注
關注
0文章
403瀏覽量
17542 -
Query
+關注
關注
0文章
11瀏覽量
9384 -
模型
+關注
關注
1文章
3305瀏覽量
49217
原文標題:Dual-Cross-Encoder:面向稠密向量檢索的Query深度交互的文檔多視角表征
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論