那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

APE:對CLIP進行特征提純能夠提升Few-shot性能

CVer ? 來源:CVer ? 2023-07-19 14:19 ? 次閱讀

本文介紹我們在ICCV 2023上接收的論文《Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement》。這篇文章基于CLIP提出了一種特征提純的方法為下游任務選擇合適的特征,以此來提高下游任務的性能并同時提高計算效率。

cf8bc766-25f2-11ee-962d-dac502259ad0.png

論文: https://arxiv.org/pdf/2304.01195

代碼: https://github.com/yangyangyang127/APE

相比于其他方法,我們能夠在性能和計算量上實現較好的均衡,如下圖所示。

cfc578f8-25f2-11ee-962d-dac502259ad0.png

1. 概述

問題:大規模預訓練的視覺-文本模型,如CLIP,BLIP等,能夠在多種數據分布下表現出良好的性能,并已經有很多的工作通過few-shot的方式將它們應用于下游任務。但這些方法或者性能提升有限(如CoOp, CLIP-Adapter等),或者需要訓練大量的參數(如Tip-Adapter等)。因此我們會問,能否同時實現高few-shot性能且少參數量呢?

出發點和思路:CLIP是一個通用的模型,考慮到下游數據分布的差異,對某個下游任務來說,CLIP提取的特征并不全是有用的,可能包含一部分冗余或噪聲。因此,在這篇文章中,我們首先提出一種特征提純的方法,為每個數據集提純個性化的特征通道,從而減少了參數量,且提升了計算效率;然后設計了一種參數高效的few-shot框架,提升了CLIP在不同數據集上的few-shot性能,下圖是論文的整體流程圖。

cfe26134-25f2-11ee-962d-dac502259ad0.png

2. 方法

這一部分中,我們分別介紹特征提純模塊和新提出的few-shot框架。

2.1 特征提純

CLIP是一個通用的模型,在下游任務上,考慮到數據分布,CLIP提取的特征可能并不全是有用的,因此我們試圖為每個下游數據集提純個性化的特征。我們通過最大化類間差異,或者說最小化類間相似度,來選擇合適的特征。對于一個d00e323c-25f2-11ee-962d-dac502259ad0.png類的下游任務,我們計算所有類的所有樣本表征之間平均相似度d0243ab4-25f2-11ee-962d-dac502259ad0.png

d03631b0-25f2-11ee-962d-dac502259ad0.png

其中,d04b30c4-25f2-11ee-962d-dac502259ad0.png代表類的序號,d05efc62-25f2-11ee-962d-dac502259ad0.png代表兩個類的先驗概率,d073879a-25f2-11ee-962d-dac502259ad0.png代表兩個類中的樣本數量,d0820d7e-25f2-11ee-962d-dac502259ad0.png是相似度函數,d093087c-25f2-11ee-962d-dac502259ad0.png代表表征。假設d0a3bfb4-25f2-11ee-962d-dac502259ad0.png代表特征通道是否被選中,d0b3335e-25f2-11ee-962d-dac502259ad0.png代表特征維度,d0c654c0-25f2-11ee-962d-dac502259ad0.png代表預先限制d0d95db8-25f2-11ee-962d-dac502259ad0.png個特征被選中,則通過求解d0f50428-25f2-11ee-962d-dac502259ad0.png使得d0243ab4-25f2-11ee-962d-dac502259ad0.png最小我們可以得到需要的特征,即求解以下優化問題:

d12abc4e-25f2-11ee-962d-dac502259ad0.png

其中d140d1be-25f2-11ee-962d-dac502259ad0.png代表逐元素相乘。最后,經過特征提純,我們在ImageNet上統計了圖像和文本相似度的變化,如下圖所示。相比于沒有特征提純,我們選定的特征減小了類間相似度,同時增大了圖像和文本的匹配程度。且我們提純出的特征能夠獲得更好的similarity map。

d15bb0d8-25f2-11ee-962d-dac502259ad0.png

d172e17c-25f2-11ee-962d-dac502259ad0.png

2.2 三邊關系的few-shot框架

CLIP等視覺文本模型一般基于測試圖像和文本表征的相似度或距離來完成分類任。但除此之外,我們還可以使用測試圖像和訓練圖像的相似度來校正,并使用訓練圖像和文本的相似度來為困難樣本提供額外的信息。基于這種考慮,我們探究了測試圖像、文本描述和訓練圖像之間的三邊嵌入關系。

假設d19a8e3e-25f2-11ee-962d-dac502259ad0.png代表測試圖像特征,d1ad4e66-25f2-11ee-962d-dac502259ad0.pngd1c034d6-25f2-11ee-962d-dac502259ad0.png分別代表訓練圖像和文本描述的特征,d1d21688-25f2-11ee-962d-dac502259ad0.png代表訓練圖像的label,則我們可以建立三邊關系,

d1e07b88-25f2-11ee-962d-dac502259ad0.png

其中,d1f44870-25f2-11ee-962d-dac502259ad0.png代表一般的CLIP基于視覺文本相似度的預測,d20ac442-25f2-11ee-962d-dac502259ad0.png代表模態間的相似度,即測試圖像和訓練圖像之間的相似度,d21b229c-25f2-11ee-962d-dac502259ad0.png反映了訓練圖像對測試圖像的貢獻。基于以上三種關系,可以得到最終的預測為

d230d0ba-25f2-11ee-962d-dac502259ad0.png

我們可以將特征提純與三邊關系結合起來,直接在選擇出來的特征上進行三種關系的few-shot學習,這樣可以減少參數和計算效率。我們提出了training-free和training-required兩種框架,如下圖,后者相比于前者增加了少量可訓練的殘差。

d24858d4-25f2-11ee-962d-dac502259ad0.png

3. 結果

我們在11個分類數據集上研究了方法的性能,并提出了training-free和training-required兩個版本,下圖是11個數據集上的平均性能以及和其他方法的比較。

d271d02e-25f2-11ee-962d-dac502259ad0.png

與其他方法相比,我們的計算效率和參數量都有所優化。

d29f8410-25f2-11ee-962d-dac502259ad0.png

提純的特征通道的數量對結果也有所影響:

d2cb1b3e-25f2-11ee-962d-dac502259ad0.png

感謝您的閱讀,更多的實現細節和比較請看我們的文章,我們的代碼已開源。感謝您提出寶貴意見。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3305

    瀏覽量

    49220
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24832
  • Clip
    +關注

    關注

    0

    文章

    31

    瀏覽量

    6711

原文標題:?ICCV 2023 | APE:對CLIP進行特征提純能夠提升Few-shot性能

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于將 CLIP 用于下游few-shot圖像分類的方案

    對比性圖像語言預訓練模型(CLIP)在近期展現出了強大的視覺領域遷移能力,可以在一個全新的下游數據集上進行 zero-shot 圖像識別。
    的頭像 發表于 09-27 09:46 ?5476次閱讀

    基于特征點精度提純的圖像配準改進算法

    基于特征點精度提純的圖像配準改進算法_劉珊珊
    發表于 01-07 18:39 ?0次下載

    NLP事件抽取綜述之挑戰與展望

    /xiaoqian19940510/Event-Extraction Few-shot or zero-shot 2020 Meta-Learning with Dynamic-Memory-Based
    的頭像 發表于 01-18 16:33 ?3861次閱讀
    NLP事件抽取綜述之挑戰與展望

    樣本量極少可以訓練機器學習模型嗎?

    本文首先介紹了用小樣本訓練模型會導致的問題,再介紹了Few-Shot Learning的基本原理即三大思路下的方法。
    的頭像 發表于 06-23 15:02 ?7050次閱讀

    介紹兩個few-shot NER中的challenge

    此部分著重介紹了兩個few-shot NER中的challenge:limited information challenge和knowledge mismatch challenge。前者主要是指
    的頭像 發表于 08-24 10:01 ?905次閱讀

    Few-shot NER的三階段

    Few-shot NER的三階段:Train、Adapt、Recognize,即在source域訓練,在target域的support上微調,在target域的query上測試。
    的頭像 發表于 08-24 16:12 ?1494次閱讀

    介紹一個基于CLIP的zero-shot實例分割方法

    CLIP是近年來在多模態方面的經典之作,得益于大量的數據和算力對模型進行預訓練,模型的Zero-shot性能非常可觀,甚至可以在眾多數據集上和有監督訓練媲美。
    的頭像 發表于 10-13 09:13 ?4859次閱讀

    使用MobileNet Single Shot Detector進行對象檢測

    電子發燒友網站提供《使用MobileNet Single Shot Detector進行對象檢測.zip》資料免費下載
    發表于 11-09 09:30 ?1次下載
    使用MobileNet Single <b class='flag-5'>Shot</b> Detector<b class='flag-5'>進行</b>對象檢測

    語言模型性能評估必備下游數據集:ZeroCLUE/FewCLUE與Chinese_WPLC數據集

    零樣本學習是AI識別方法之一。簡單來說就是識別從未見過的數據類別,即訓練的分類器不僅僅能夠識別出訓練集中已有的數據類別, 還可以對于來自未見過的類別的數據進行區分。小樣本學習(Few-shot Learning)是解決在極少數據
    的頭像 發表于 03-27 11:38 ?1558次閱讀

    基于GLM-6B對話模型的實體屬性抽取項目實現解析

    Zero-shot、One-shot以及Few-shot讓人傻傻分不清,讀了很多文章,也沒搞清楚他們的差別,究竟什么叫zero-shot,其在應用過程中的no gradient upd
    的頭像 發表于 03-28 10:11 ?7086次閱讀

    邁向多模態AGI之開放世界目標檢測

    OVD的基礎概念:OVD的使用主要涉及到 few-shot 和 zero-shot兩大類場景,few-shot是指有少量人工標注訓練樣本的目標類別,zero-shot則是指不存在任何人
    的頭像 發表于 06-15 16:08 ?900次閱讀
    邁向多模態AGI之開放世界目標檢測

    基于多任務預訓練模塊化提示

    Few-shot 場景時,PT 的調優方法還是存在一定的局限性。針對這個問題, 復旦提出了多任務預訓練模塊化 Prompt(簡稱為:),來提高模型在 Few-shot 場景下的 PT 效果,使模型能夠快速適應下游
    的頭像 發表于 06-20 11:04 ?725次閱讀
    基于多任務預訓練模塊化提示

    為什么叫shot?為什么shot比掩膜版尺寸小很多?

    其中,步進投影式光刻機(stepper)的一個shot一個shot進行曝光的,并不是一整張晶圓同時曝光,那么stepper的shot是什么樣的?多大尺寸?需要多大的掩膜版?
    的頭像 發表于 10-09 18:13 ?7044次閱讀
    為什么叫<b class='flag-5'>shot</b>?為什么<b class='flag-5'>shot</b>比掩膜版尺寸小很多?

    基于顯式證據推理的few-shot關系抽取CoT

    最近,上下文學習策略已被證明在沒有訓練的情況下顯示出顯著的結果。很少有研究利用上下文學習進行zero-shot信息提取。不幸的是,推理的證據在思維鏈提示的構建過程中沒有被考慮或隱式建模。
    的頭像 發表于 11-20 17:44 ?966次閱讀
    基于顯式證據推理的<b class='flag-5'>few-shot</b>關系抽取CoT

    更強!Alpha-CLIP:讓CLIP關注你想要的任何地方!

    然而CLIP必須以整張圖片作為輸入并進行特征提取,無法關注到指定的任意區域。然而,自然的2D圖片中往往包含不同的物體,part和thing。如果能由用戶或檢測模型指定需要關注的區域,在圖像編碼的過程就確定需要關注的對象,將會
    的頭像 發表于 12-10 10:28 ?1119次閱讀
    更強!Alpha-<b class='flag-5'>CLIP</b>:讓<b class='flag-5'>CLIP</b>關注你想要的任何地方!
    百家乐官网庄家优势| 广州百家乐赌场| 百家乐官网单双打法| 太阳城丝巾| 澳门百家乐是骗人的| 百家乐官网赌博论坛在线| 大发888游戏平台hg dafa888 gw| 百家乐官网是多少个庄闲| 网上百家乐怎么赌能赢钱| 任我赢百家乐官网软件| 盛世国际投注| 百家乐贴士介绍| 真人百家乐娱乐好玩| 百家乐官网已破解的书籍| 蜀都棋牌游戏中心| 骰子百家乐的玩法技巧和规则 | 单张百家乐论坛| 百家乐官网娱乐城7| 全讯网qx1860.com| 百家乐作弊知识| 杨公24山择日| 988百家乐官网娱乐| 百家乐官网视频地主| 娱网棋牌| 大发888娱乐城大发888大发网 | 百家乐官网园百利宫娱乐城信誉好...| 大发888注册的微博| 百家乐游戏下裁| 百家乐官网和怎么算输赢| 百家乐官网玄机| 池州市| 皇家国际娱乐| 百家乐娱乐城体验金| 百家乐高科技出千工具| 优博百家乐官网的玩法技巧和规则 | 新田县| 晓游棋牌官方下载| 凯发百家乐是否是程序控制| 网上百家乐公式| 蓝盾百家乐官网的玩法技巧和规则| 大赢家娱乐|