那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用視覺+語言數(shù)據(jù)增強視覺特征

CVer ? 來源:CVer ? 作者:CVer ? 2023-02-13 13:44 ? 次閱讀

研究動機

傳統(tǒng)的多模態(tài)預訓練方法通常需要"大數(shù)據(jù)"+"大模型"的組合來同時學習視覺+語言的聯(lián)合特征。但是關注如何利用視覺+語言數(shù)據(jù)提升視覺任務(多模態(tài)->單模態(tài))上性能的工作并不多。本文旨在針對上述問題提出一種簡單高效的方法。

在這篇文章中,以醫(yī)療影像上的特征學習為例,我們提出對圖像+文本同時進行掩碼建模(即Masked Record Modeling,Record={Image,Text})可以更好地學習視覺特征。該方法具有以下優(yōu)點:

簡單。僅通過特征相加就可以實現(xiàn)多模態(tài)信息的融合。此處亦可進一步挖掘,比如引入更高效的融合策略或者擴展到其它領域。

高效。在近30w的數(shù)據(jù)集上,在4張NVIDIA 3080Ti上完成預訓練僅需要1天半左右的時間。

性能強。在微調階段,在特定數(shù)據(jù)集上,使用1%的標記數(shù)據(jù)可以接近100%標記數(shù)據(jù)的性能。

方法(一句話總結)

1318d8aa-ab48-11ed-bfe3-dac502259ad0.png

如上圖所示,我們提出的訓練策略是比較直觀的,主要包含三步:

隨機Mask一部分輸入的圖像和文本

使用加法融合過后的圖像+文本的特征重建文本

使用圖像的特征重建圖像。

性能

1343eedc-ab48-11ed-bfe3-dac502259ad0.png

如上圖所示,我們全面對比了現(xiàn)有的相關方法和模型在各類微調任務上的性能。

在CheXpert上,我們以1%的有標記數(shù)據(jù)接近使用100%有標記數(shù)據(jù)的性能。

RSNA Pneumonia和SIIM (分割)上,我們以較大幅度超過了之前最先進的方法。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 建模
    +關注

    關注

    1

    文章

    313

    瀏覽量

    60853
  • 數(shù)據(jù)集

    關注

    4

    文章

    1209

    瀏覽量

    24830
  • 大數(shù)據(jù)

    關注

    64

    文章

    8908

    瀏覽量

    137786

原文標題:ICLR 2023 | 廈大&港大提出MRM:利用視覺+語言數(shù)據(jù)增強視覺特征

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    NaVILA:加州大學與英偉達聯(lián)合發(fā)布新型視覺語言模型

    日前,加州大學的研究人員攜手英偉達,共同推出了一款創(chuàng)新的視覺語言模型——NaVILA。該模型在機器人導航領域展現(xiàn)出了獨特的應用潛力,為智能機器人的自主導航提供了一種全新的解決方案。 視覺語言
    的頭像 發(fā)表于 12-13 10:51 ?345次閱讀

    基于視覺語言模型的導航框架VLMnav

    本文提出了一種將視覺語言模型(VLM)轉換為端到端導航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離,而是使用VLM在一步中直接選擇動作。驚訝的是,我們發(fā)現(xiàn)VLM可以作為一種無需任何微調或導航數(shù)據(jù)的端到端策略來使用。這使得該
    的頭像 發(fā)表于 11-22 09:42 ?260次閱讀

    使用語義線索增強局部特征匹配

    視覺匹配是關鍵計算機視覺任務中的關鍵步驟,包括攝像機定位、圖像配準和運動結構。目前最有效的匹配關鍵點的技術包括使用經(jīng)過學習的稀疏或密集匹配器,這需要成對的圖像。這些神經(jīng)網(wǎng)絡對兩幅圖像的特征有很好的總體理解,但它們經(jīng)常難以匹配不同
    的頭像 發(fā)表于 10-28 09:57 ?335次閱讀
    使用語義線索<b class='flag-5'>增強</b>局部<b class='flag-5'>特征</b>匹配

    圖像采集卡:增強視覺數(shù)據(jù)采集

    圖像采集卡介紹:在視覺數(shù)據(jù)采集領域,圖像采集卡在捕獲和處理來自各種來源的圖像或視頻方面發(fā)揮著關鍵作用。在本文中,我們將深入探討圖像采集卡的世界、其功能、應用以及它們在視覺數(shù)據(jù)采集領域提
    的頭像 發(fā)表于 09-24 11:06 ?361次閱讀
    圖像采集卡:<b class='flag-5'>增強</b><b class='flag-5'>視覺</b><b class='flag-5'>數(shù)據(jù)</b>采集

    視覺檢測是什么意思?機器視覺檢測的適用行業(yè)及場景有哪些?

    檢測的定義與原理 機器視覺檢測,是利用光學成像、數(shù)字信號處理和計算機技術,模擬人類視覺的功能,對目標物體進行自動檢測和分析的技術。它包括圖像采集、預處理、特征提取、分類識別等多個環(huán)節(jié),
    的頭像 發(fā)表于 08-30 11:20 ?475次閱讀

    什么是機器視覺opencv?它有哪些優(yōu)勢?

    機器視覺(Machine Vision)是一種利用計算機和圖像處理技術來模擬人類視覺系統(tǒng)的功能,實現(xiàn)對圖像的識別、分析和理解的技術。OpenCV(Open Source Computer
    的頭像 發(fā)表于 07-16 10:33 ?901次閱讀

    機器視覺和計算機視覺有什么區(qū)別

    。機器視覺的研究目標是讓機器具有類似人類的視覺能力,能夠自動、準確地完成各種視覺任務。 計算機視覺 計算機視覺,又稱為
    的頭像 發(fā)表于 07-16 10:23 ?626次閱讀

    機器視覺的應用實例解析

    機器視覺是一種利用計算機視覺技術對圖像進行處理、分析和理解的技術。它在許多領域都有廣泛的應用,包括工業(yè)自動化、醫(yī)療診斷、交通監(jiān)控、安全監(jiān)控等。 一、引言 機器視覺技術的發(fā)展可以追溯到2
    的頭像 發(fā)表于 07-16 10:19 ?556次閱讀

    機器人視覺與計算機視覺的區(qū)別與聯(lián)系

    ,而計算機視覺則更側重于從圖像和視頻中提取信息。盡管它們在某些方面有所重疊,但它們在目標、方法和應用上存在明顯差異。 2. 機器人視覺概述 機器人視覺是指機器人利用
    的頭像 發(fā)表于 07-09 09:27 ?749次閱讀

    計算機視覺和機器視覺區(qū)別在哪

    ,旨在實現(xiàn)對圖像和視頻的自動分析和理解。 機器視覺 機器視覺是計算機視覺的一個分支,主要應用于工業(yè)自動化領域。它利用計算機和圖像處理技術,實現(xiàn)對物體的檢測、測量、定位等功能,以提高生產(chǎn)
    的頭像 發(fā)表于 07-09 09:22 ?529次閱讀

    機器視覺的應用流程是如何實現(xiàn)的

    機器視覺是一種利用計算機和圖像處理技術,模擬人類視覺系統(tǒng)對圖像進行處理、分析和理解的技術。它在工業(yè)自動化、智能交通、醫(yī)療診斷、安防監(jiān)控等領域有著廣泛的應用。 在機器視覺應用的初期,需要
    的頭像 發(fā)表于 07-04 10:47 ?498次閱讀

    機器視覺控制的優(yōu)缺點有哪些

    機器視覺控制是一種利用計算機視覺技術對機器進行控制的方法,它在工業(yè)自動化、機器人技術、智能交通等領域得到了廣泛應用。然而,機器視覺控制也存在一些優(yōu)缺點。本文將詳細介紹機器
    的頭像 發(fā)表于 07-04 10:43 ?844次閱讀

    TDES9640增強視覺解串器數(shù)據(jù)

    電子發(fā)燒友網(wǎng)站提供《TDES9640增強視覺解串器數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 06-21 10:11 ?3次下載
    TDES9640<b class='flag-5'>增強</b><b class='flag-5'>視覺</b>解串器<b class='flag-5'>數(shù)據(jù)</b>表

    什么是工業(yè)機器視覺?它有哪些作用?

    工業(yè)機器視覺,是指利用計算機視覺技術和圖像處理技術,對工業(yè)生產(chǎn)過程中的各種圖像進行自動識別、定位、檢測等操作的技術。它是工業(yè)自動化和智能制造領域中的一項關鍵技術,為現(xiàn)代工業(yè)生產(chǎn)提供了高效、準確的
    的頭像 發(fā)表于 06-17 10:18 ?978次閱讀

    視覺檢測設備的分類

    視覺檢測設備是一種利用攝像頭、傳感器、光源和圖像處理算法等技術組成的設備,用于檢測、識別、分析和判斷圖像或視頻中目標物體的特征、屬性、狀態(tài)或缺陷。這些設備可以應用于各種行業(yè)和領域,包括工業(yè)自動化
    的頭像 發(fā)表于 02-21 09:41 ?1505次閱讀
    <b class='flag-5'>視覺</b>檢測設備的分類
    百家乐tt娱乐| 百家乐官网最长的缆| 哪个百家乐网站最大| 葡京百家乐官网注码| 百家乐与21点| 注册百家乐官网送彩金 | 六合彩开奖结果直播| 百家乐只打一种牌型| 百家乐官网大眼仔路| 大发888游戏破解软件| 罗盘对应24宿| 百家乐官网佣金计算| 百家乐园选蒙| 百家乐官网网| 百家乐官网评级导航| 太阳城二手房| 2404这个房号 风水| 百家乐官网一代龙虎机| 大发888娱乐城下载lm0| 百家乐色子玩法| KK百家乐官网现金网| 威尼斯人娱乐城会员| 百家乐赢钱lv| 澳门百家乐官网鸿运| 六合彩最快开奖| 一筒百家乐的玩法技巧和规则| 百家乐赌博| 时时博百家乐的玩法技巧和规则 | 大发888贴吧| 网上百家乐作弊下载| 中华百家乐官网娱乐城| 洱源县| 大发888游戏场下载| 百家乐软件编辑原理| 德州扑克和梭哈| 沙龙百家乐娱乐网| 百家乐官网贴士介绍| 百家乐官网游戏软件开发| 香港六合彩开奖结果网| 百家乐扑克牌手机壳| 线上百家乐开户|