那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于預(yù)訓(xùn)練模型和語(yǔ)言增強(qiáng)的零樣本視覺(jué)學(xué)習(xí)

CVer ? 來(lái)源:CVer ? 2023-06-15 16:36 ? 次閱讀

在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好

ef117f4a-0b3a-11ee-962d-dac502259ad0.jpg

CoOp 增加一些 prompt 會(huì)讓模型能力進(jìn)一步提升

ef1f1b3c-0b3a-11ee-962d-dac502259ad0.jpg

怎么讓能力更好?可以引入其他知識(shí),即其他的預(yù)訓(xùn)練模型,包括大語(yǔ)言模型、多模態(tài)模型

也包括 Stable Diffusion 多模態(tài)預(yù)訓(xùn)練模型

ef419180-0b3a-11ee-962d-dac502259ad0.jpg

考慮多標(biāo)簽圖像分類任務(wù)——每幅圖像大于一個(gè)類別

如果已有圖文對(duì)齊模型——能否用文本特征代替圖像特征

ef490834-0b3a-11ee-962d-dac502259ad0.jpg

訓(xùn)練的時(shí)候使用文本組成的句子

對(duì)齊總會(huì)有 gap,選 loss 的時(shí)候使用 rank loss,對(duì)模態(tài) gap 更穩(wěn)定

ef54761a-0b3a-11ee-962d-dac502259ad0.jpg

拿到文本后有幾種選擇,比如 Coco 只要其中的 caption 不要圖像,或是 Google 搜句子,抑或是語(yǔ)言模型生成

最后選擇第一種,因?yàn)榉€(wěn)定性和效果更好,能夠保證同樣數(shù)據(jù)集(同分布?)

可以建一個(gè)同義詞表

ef8c6a34-0b3a-11ee-962d-dac502259ad0.jpg

兩種 prompt,global 關(guān)注句子里有沒(méi)有貓,local 關(guān)心這個(gè)詞是不是跟貓有關(guān)系

efb3859c-0b3a-11ee-962d-dac502259ad0.jpg

測(cè)試的時(shí)候就將句子變成圖像,global 不變,local 變成了跟圖像里的 token 做比較

effee6ea-0b3a-11ee-962d-dac502259ad0.jpg

如果再加上少量文本(大量句子和少量文本)性能會(huì)進(jìn)一步提升

f00755b4-0b3a-11ee-962d-dac502259ad0.jpg

一些相關(guān)工作,提完文本特征加一些噪聲提高魯棒性,消解圖文 gap

f00f4878-0b3a-11ee-962d-dac502259ad0.jpg

f0482878-0b3a-11ee-962d-dac502259ad0.jpg

3d 樣本較難,因?yàn)辄c(diǎn)云-文本對(duì)較少,很難獲取

f0769c80-0b3a-11ee-962d-dac502259ad0.jpg

投影后的 3d 點(diǎn)云可以被視作 2d 圖像處理,使用圖像 encoder

f0a43da2-0b3a-11ee-962d-dac502259ad0.jpg

但投影點(diǎn)云依然與圖像存在 gap,于是采取另一種思路

投影的確與圖像相關(guān),但依然有調(diào)整空間,所以轉(zhuǎn)換成某個(gè)方向的圖像和該方向點(diǎn)云的投影圖像做匹配

投影和圖像對(duì)齊,圖像和文本對(duì)齊,因此就可以實(shí)現(xiàn)零樣本學(xué)習(xí)

f0aea9cc-0b3a-11ee-962d-dac502259ad0.jpg

如果有一些少量的有標(biāo)簽監(jiān)督,相當(dāng)于 few-shot,效果也相當(dāng)好

全監(jiān)督效果也很好

f0b7f07c-0b3a-11ee-962d-dac502259ad0.jpg

當(dāng)時(shí)覺(jué)得圖像可以做中介,那么紅外、熱成像等其他模態(tài)都可以

ImageBind 以圖像為中介將六種模態(tài)對(duì)齊到一起,重新訓(xùn)練

但大家依然可以做自己領(lǐng)域相關(guān)的方向,以圖像作為中介對(duì)比,還有很大的空間

f0ede088-0b3a-11ee-962d-dac502259ad0.jpg

用想象的方式開(kāi)展學(xué)習(xí)

f1137334-0b3a-11ee-962d-dac502259ad0.jpg

假設(shè)有一些類別,使用語(yǔ)言模型生成一些句子,再根據(jù)句子使用生成模型生成圖像

因此有了圖像和類別匹配對(duì)(弱監(jiān)督目標(biāo)檢測(cè)

希望即使使用合成圖像,模型在真實(shí)圖像上也可以比較好

因?yàn)轭悇e本身和圖像會(huì)比較簡(jiǎn)單,但如果使用語(yǔ)言模型,比如貓變成趴著的貓,這樣圖像多樣性會(huì)很高

f13ccebe-0b3a-11ee-962d-dac502259ad0.jpg

f146f9f2-0b3a-11ee-962d-dac502259ad0.jpg

考慮 SAM 和 Stable diffusion 特定完成分割任務(wù)

通過(guò) SAM 得到的 proposal 提取特征

f1534b76-0b3a-11ee-962d-dac502259ad0.jpg

f1744768-0b3a-11ee-962d-dac502259ad0.jpg

責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    538

    瀏覽量

    10341
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    36

    瀏覽量

    3887

原文標(biāo)題:VALSE 2023 | 左旺孟教授:預(yù)訓(xùn)練模型和語(yǔ)言增強(qiáng)的零樣本視覺(jué)學(xué)習(xí)

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一文詳解知識(shí)增強(qiáng)語(yǔ)言預(yù)訓(xùn)練模型

    隨著預(yù)訓(xùn)練語(yǔ)言模型(PLMs)的不斷發(fā)展,各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語(yǔ)料庫(kù)中學(xué)習(xí)一定的知識(shí),但仍舊存在很
    的頭像 發(fā)表于 04-02 17:21 ?9722次閱讀

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型預(yù)訓(xùn)練

    語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無(wú)需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    設(shè)計(jì)提示詞時(shí),需要明確輸出需求,以便得到滿意的結(jié)果。 推理引導(dǎo)如前文所述,提示工程對(duì)于訓(xùn)練語(yǔ)言模型的逐步推理能力至關(guān)重要。樣本提示大
    發(fā)表于 05-07 17:21

    基于深度學(xué)習(xí)的自然語(yǔ)言處理對(duì)抗樣本模型

    深度學(xué)習(xí)模型被證明存在脆弱性并容易遭到對(duì)抗樣本的攻擊,但目前對(duì)于對(duì)抗樣本的研究主要集中在計(jì)算機(jī)視覺(jué)領(lǐng)域而忽略了自然
    發(fā)表于 04-20 14:36 ?39次下載
    基于深度<b class='flag-5'>學(xué)習(xí)</b>的自然<b class='flag-5'>語(yǔ)言</b>處理對(duì)抗<b class='flag-5'>樣本</b><b class='flag-5'>模型</b>

    融合樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述

    融合樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述 來(lái)源:《系統(tǒng)工程與電子技術(shù)》,作者潘崇煜等 摘
    發(fā)表于 02-09 11:22 ?2371次閱讀
    融合<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習(xí)</b>和小<b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習(xí)</b>的弱監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>方法綜述

    如何更高效地使用預(yù)訓(xùn)練語(yǔ)言模型

    基本的假設(shè):預(yù)訓(xùn)練模型在不同下游任務(wù)上學(xué)習(xí)的過(guò)程,可以被重新參數(shù)化(reparameterized)為在同一個(gè)低維征子空間上的優(yōu)化過(guò)程。
    的頭像 發(fā)表于 07-08 11:28 ?1318次閱讀

    利用視覺(jué)語(yǔ)言模型對(duì)檢測(cè)器進(jìn)行預(yù)訓(xùn)練

    預(yù)訓(xùn)練通常被用于自然語(yǔ)言處理以及計(jì)算機(jī)視覺(jué)領(lǐng)域,以增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力,達(dá)到加速訓(xùn)練和提高
    的頭像 發(fā)表于 08-08 15:33 ?1460次閱讀

    預(yù)訓(xùn)練語(yǔ)言模型的字典描述

    今天給大家?guī)?lái)一篇IJCAI2022浙大和阿里聯(lián)合出品的采用對(duì)比學(xué)習(xí)的字典描述知識(shí)增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型
    的頭像 發(fā)表于 08-11 10:37 ?1213次閱讀

    如何充分挖掘預(yù)訓(xùn)練視覺(jué)-語(yǔ)言基礎(chǔ)大模型的更好樣本學(xué)習(xí)能力

    因此,合適的prompt對(duì)于模型的效果至關(guān)重要。大量研究表明,prompt的微小差別,可能會(huì)造成效果的巨大差異。研究者們就如何設(shè)計(jì)prompt做出了各種各樣的努力——自然語(yǔ)言背景知識(shí)的融合、自動(dòng)生成prompt的搜索、不再拘泥于語(yǔ)言
    的頭像 發(fā)表于 10-19 14:39 ?1518次閱讀

    使用BLIP-2 樣本“圖生文”

    現(xiàn)代計(jì)算機(jī)視覺(jué)和自然語(yǔ)言模型在能力越來(lái)越強(qiáng)大的同時(shí),模型尺寸也隨之顯著增大。由于當(dāng)前進(jìn)行一次單模態(tài)模型
    的頭像 發(fā)表于 03-03 11:06 ?1955次閱讀

    預(yù)訓(xùn)練數(shù)據(jù)大小對(duì)于預(yù)訓(xùn)練模型的影響

    BERT類模型的工作模式簡(jiǎn)單,但取得的效果也是極佳的,其在各項(xiàng)任務(wù)上的良好表現(xiàn)主要得益于其在大量無(wú)監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語(yǔ)言學(xué)的特征角度來(lái)衡量一個(gè)預(yù)
    的頭像 發(fā)表于 03-03 11:20 ?1519次閱讀

    形狀感知樣本語(yǔ)義分割

    由于大規(guī)模視覺(jué)語(yǔ)言預(yù)訓(xùn)練取得了令人矚目的進(jìn)展,最近的識(shí)別模型可以以驚人的高準(zhǔn)確度對(duì)任意對(duì)象進(jìn)行
    的頭像 發(fā)表于 04-28 11:26 ?863次閱讀
    形狀感知<b class='flag-5'>零</b><b class='flag-5'>樣本</b>語(yǔ)義分割

    什么是樣本學(xué)習(xí)?為什么要搞樣本學(xué)習(xí)

    樣本分類的技術(shù)目前正處于高速發(fā)展時(shí)期, 所涉及的具體應(yīng)用已經(jīng)從最初的圖像分類任務(wù)擴(kuò)展到了其他計(jì)算機(jī)視覺(jué)任務(wù)乃至自然語(yǔ)言處理等多個(gè)相關(guān)領(lǐng)域。 對(duì)此, 本文將其稱為廣義
    發(fā)表于 09-22 11:10 ?2360次閱讀
    什么是<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習(xí)</b>?為什么要搞<b class='flag-5'>零</b><b class='flag-5'>樣本</b><b class='flag-5'>學(xué)習(xí)</b>?

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是在自然語(yǔ)
    的頭像 發(fā)表于 07-03 18:20 ?3140次閱讀

    語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?537次閱讀
    电子百家乐官网假在线哪| 百家乐英皇娱乐| 金濠国际娱乐城| 百家乐官网最安全打法| 威尼斯人娱乐网最新地址| 百家乐官网群博爱彩| 澳门百家乐赢钱秘| 皇冠官方网址| 战神百家乐官网的玩法技巧和规则| 大发888大发888| 百家乐官网玩揽法大全| 大发888怎么注册不了| 百家乐官网出千方法技巧| 威尼斯人娱乐城会员| 百家乐官网珠仔路| 威尼斯人娱乐平台注册网址| 百家乐官网赌场讨论群| 二八杠论坛| 澳门百家乐官网官网站| 大发888官方 3000| 百家乐官网群的微博| 大赢家即时比分网| 百家乐赢足球博彩皇冠| 百家乐官网中P代表| 小孟百家乐的玩法技巧和规则| 百家乐官网防伪筹码套装| 大发888娱乐场玩什么| LV百家乐官网客户端LV| 百胜滩| 百家乐推广| 百家乐官网那个平台好| 太阳城代理最新网址| 百家乐官网加牌规| 大渡口区| 海立方百家乐的玩法技巧和规则| 百家乐官网霸王闲| 大发888娱乐场开户| 百家乐单双打法| 百家乐官网免费路单| 威尼斯人娱乐网代理| 网上玩百家乐好吗|