在本篇工作中,研究者探索了一種統一的學習方法,通過考慮多粒度的不確定性來同時對粗粒度和細粒度的圖像檢索進行建模。論文的方法集成了不確定性建模和不確定性正則化來提高召回率并增強檢索過程,在三個公共數據集FashionIQ、Fashion200k 和 Shoes上,所提出的方法在baseline上分別提高了 +4.03%、+ 3.38% 和 + 2.40% Recall@50。
論文題目: Composed Image Retrieval with Text Feedback via Multi-Grained Uncertainty Regularization 論文鏈接: https://arxiv.org/abs/2211.07394 論文代碼: https://github.com/Monoxide-Chen/uncertainty_retrieval
一、背景
典型的檢索過程包含兩個步驟,即粗粒度檢索和細粒度檢索。粗粒度檢索利用簡短或不精確的描述查詢圖像,而細粒度檢索則需要更多細節進行一對一映射。
之前工作有什么痛點?
1. 傳統的圖像檢索系統要求用戶提前提供準確的查詢圖像,通常是不好獲得;而添加文本反饋,用戶則可以對查詢圖像進行的修改,來逐漸細化他們的搜索。
2. 現有的組合搜索方法通常側重于在訓練過程中優化嚴格的成對距離,這與一對多粗粒度測試設置不同。過多關注一對一度量學習會削弱模型對潛在候選圖片的召回能力。
二、方法
1、總覽
在這篇論文中,研究者不追更精細的網絡結構,而是采用一種新的學習策略。因此,主要遵循現有的工作CosMo[1]來構建網絡以進行公平比較,更多的結構細節在論文中進行了提供。
給定源圖像 和用于修改的文本
,我們通過Compositor組合
和
得到了組合特征
。同時,我們通過與源圖像相同的Image Encoder提取了目標圖像
的視覺特征
。我們的主要貢獻是通過Augmenter進行不確定性建模,以及對粗匹配進行的不確定性正則化。? ?
2、不確定性建模
如上圖所示,不再采用嚴格的一對一匹配,而是促使模型專注于一對多匹配,即從細粒度過渡到粗粒度。因此,首先引入了一個用于噪聲增強的Augmenter來生成抖動,這個模塊直接作用于最終的特征空間。具體而言,Augmenter向目標特征 添加原始特征分布的高斯噪聲。高斯噪聲的均值
和標準差
是從原始特征
計算得出的。因此,最終的抖動特征
可以表示為:
其中, 和
是與輸入目標特征具有相同形狀的噪聲向量,
,而
。通過這種方式可以使特征在有限程度上波動,接近于原始分布。
3、不確定性正則化
現有的方法通常采用InfoNCE損失函數,可以看作是一種batch分類損失函數(batch-wise classification loss)。其簡單表述如下:
對于一個具有 個樣本的batch,給定圖文合成特征
和目標特征
,InfoNCE損失同時最大化自相似性
并最小化batch中與其他樣本相似性
。可以看出,InfoNCE損失僅關注一對一的精細粒度匹配。在這項工作中旨在統一精細和粗粒度的匹配。由偶然不確定性(Aleatoric Uncertainty)[2]的啟發,給定兩種類型的特征
和
,不確定性正則化可以定義如下:? ?
為了優化多粒度檢索性能,采用了細粒度損失 和論文提出的不確定性正則化
的組合。因此,總損失如下:
三、實驗
1、實驗設置
論文在多個數據集上(FashionIQ、Fashion200k、Shoes)測試了方法的準確性,提升了召回率。代碼已經公開在github上。
2、實驗結果
展示了一些論文結果,更多的實驗結果和消融實驗請參考論文。
在FashionIQ上的結果
在Fashion200k和Shoes上的結果
四、總結
總的來說,該論文通過多粒度不確定性正則化的角度提出了一種新穎的通過文本反饋進行組合圖像檢索的方法。該方法通過不確定性建模和正則化同時對粗粒度和精細粒度的檢索進行建模,從而解決了現實世界圖像檢索中的訓練和測試不一致性問題。該方法生成抖動特征以模擬不確定范圍,并根據波動范圍自適應地調整權重。與現有方法相比,所提出的方法在三個公共數據集上顯著提高了召回率。論文還討論了該方法在現實場景中的潛在應用以及其對集成數據集的可擴展性。總體而言,所提出的方法為通過文本反饋進行組合圖像檢索面臨的挑戰提供了有希望的解決方案。
-
建模
+關注
關注
1文章
313瀏覽量
60854 -
模型
+關注
關注
1文章
3305瀏覽量
49220 -
圖像檢索
+關注
關注
0文章
28瀏覽量
8049 -
檢索系統
+關注
關注
0文章
8瀏覽量
6451
原文標題:ICLR 2024 清華/新國大/澳門大學提出一模通吃的多粒度圖文組合檢索MUG:通過不確定性建模,兩行代碼完成部署
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
如何創造可信任的機器學習模型?先要理解不確定性

E8364C PNA的不確定性和跟蹤是什么?
是否可以使用全雙端口校準中的S11不確定性來覆蓋單端口校準的不確定性?
N5531S TRFL不確定性
435B-K05輸出不確定性
5G網絡架構的不確定性及其對承載網的影響
連續值信息系統的不確定性度量
如何用不確定性解決模型問題
針對自閉癥輔助的不確定性聯合組稀疏建模方法

評論