那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NeurlPS'23開源 | 首個!開放詞匯3D實例分割!

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-11-14 15:53 ? 次閱讀

0. 筆者個人體會

實例分割是CV領域很經(jīng)典的任務,應用也非常廣泛。但一個比較頭疼的點是需要預定義類別,訓練和測試都只能針對固定的類別。

最近,筆者閱讀了一篇NeurlPS 2023開源的方案OpenMask3D,可以根據(jù)輸入詞匯直接分割模型,關(guān)鍵是輸入的詞匯非常任意,比如"印有花卉圖案的扶手椅",可以很好得跟其他類別區(qū)分開。

今天筆者將為大家分享這項工作,當然筆者水平有限,如果有理解不當?shù)牡胤綒g迎大家一起討論~

1. 效果展示

OpenMask3D聲稱是第一個開放詞匯3D實例分割模型,也就是輸入詞匯,分割對應的3D實例。神奇的是它甚至可以識別顏色、幾何、材料、位置、臨近關(guān)系等語義信息。比如輸入"腳凳"、"上面有一個花瓶的邊桌""一個白色的枕頭"、"放著花瓶的邊桌"、"空垃圾桶",感覺深度學習越來越偏向人類的思維模式了。

6f70ad6a-828b-11ee-939d-92fbcf53809c.png

6f91d792-828b-11ee-939d-92fbcf53809c.png

代碼已經(jīng)開源了,感興趣的小伙伴可以運行代碼測試一下。下面來看具體的論文信息。

2. 摘要

我們介紹了開放詞匯3D實例分割的任務。當前的3D實例分割方法通常只能從訓練數(shù)據(jù)集中標注的預定義的封閉類集中識別對象類別。這給現(xiàn)實世界的應用程序帶來了很大的限制,在現(xiàn)實世界的應用程序中,人們可能需要執(zhí)行由與各種各樣的對象相關(guān)的新穎、開放的詞匯表查詢所指導的任務。最近,開放詞匯3D場景理解方法已經(jīng)出現(xiàn),通過學習場景中每個點的可查詢特征來解決這個問題。雖然這種表示可以直接用于執(zhí)行語義分割,但是現(xiàn)有的方法不能分離多個對象實例。在這項工作中,我們解決了這一限制,并提出了OpenMask3D,這是一個開放詞匯三維實例分割的zero-shot方法。在預測的類別不可知的3D實例掩模的指導下,我們的模型通過基于剪輯的圖像嵌入的多視圖融合來聚集每個掩模的特征。在ScanNet200和Replica上的實驗和消融研究表明,OpenMask3D優(yōu)于其他開放詞匯方法,尤其是在長尾分布上。定性實驗進一步展示了OpenMask3D基于描述幾何圖形、啟示和材料的自由形式查詢來分割對象屬性的能力。

3. 算法解析

OpenMask3D聲稱是第一個開放詞匯的3D實例分割模型,其Pipeline由四個步驟組成:

1、輸入帶位姿的RGB-D和重建的點云;

2、對每個點云計算與類無關(guān)的實例Mask;

3、使用預訓練的視覺-語言模型CLIP,對每個Mask計算一個特征表示。

4、計算開放詞匯的三維實例分段表示,查詢概念相關(guān)的對象。

6fae55b6-828b-11ee-939d-92fbcf53809c.png

類別無關(guān)的實例分割怎么做的?

這個方法的關(guān)鍵新穎之處,在于它遵循一個實例mask引導的策略,而現(xiàn)有方法是基于點引導的。具體流程是先使用預訓練的3D實例分割模型進行預測,預測得到二進制mask以及對應的類別和置信度。OpenMask3D直接拋棄類別和置信度,將二進制mask送到下游計算mask-特征。

每個實例的Mask-特征怎么計算的?

對每個Mask,首先選擇在RGB序列中可見性最好的k個視角。在每個視角內(nèi),由3D實例分割投影為2D分割,用SAM(分割一切)優(yōu)化,再經(jīng)過裁剪獲得僅包括目標的多尺度mask圖。之后使用CLIP編碼器來獲得2D Mask的圖像embedding,這些圖像級的embedding再根據(jù)k個視角聚合得到mask-特征的表征。

k個視角圖像是如何計算的呢?

這里是計算的共視得分然后排序,用vis表示投影點云個數(shù),其中第i個mask在第j幀圖像的得分為:

6fc5136e-828b-11ee-939d-92fbcf53809c.png

直接投影不就得到2D分割了,為啥還要加SAM?

作者認為,直接投影的話目標輪廓非常不準,而且會產(chǎn)生很多噪聲,因此使用了之前大火的分割一切模型來優(yōu)化。這里也不是直接用SAM來分割,而是使用RANSAC采樣點+SAM分割的方案,得到置信度最高的2D分割區(qū)域。

經(jīng)過這一步,就將類別無關(guān)的實例mask轉(zhuǎn)換為了語言特征,無論是使用文本查詢還是圖像查詢都非常方便。

6fd192c4-828b-11ee-939d-92fbcf53809c.png

4. 實驗結(jié)果

ScanNet200驗證集上的定量對比,對比了全監(jiān)督方案Mask3D,還有另一個開放詞匯模型OpenScene。結(jié)果顯示OpenMask3DAP指標達到最優(yōu),尤其是長尾類別,對全監(jiān)督方案還是有很大差距,這個也能理解。

6fdd0a64-828b-11ee-939d-92fbcf53809c.png

ScanNet200驗證集上的消融實驗,對比top k視角選擇(也分析k值多少合適)、2D Mask生成(是否使用SAM)、多尺度裁剪對性能的影響。

6ffc60b2-828b-11ee-939d-92fbcf53809c.png

下面這個實驗很有意思,之前的3D實例分割是使用預訓練模型生成的,現(xiàn)在作者測試了直接使用3D實例分割真值的效果,后面的流程都一樣。結(jié)果顯示,使用真值后,在長尾類上的精度甚至超越了全監(jiān)督方案Mask3D 9.1% AP。

701542b2-828b-11ee-939d-92fbcf53809c.png

定性結(jié)果,測試開放詞匯3D實例分割性能。借助zero-shot性能,OpenMask3D能夠分割"一個綠色的座位"、"印有花卉圖案的扶手椅"、"上面沒有衣服的床"、"壁紙前的沙發(fā)"這樣很特殊的目標。而且OpenMask3D還可以識別顏色、紋理、情境、背景等對象屬性,這個非常新奇。

7028b798-828b-11ee-939d-92fbcf53809c.png

OpenMask3D和OpenScene的定性比對比,由于OpenMask3D計算的是embedding和每個對象實例的每個mask特征向量之間的相似性,所以會產(chǎn)生更好的分割邊界。這里也推薦「3D視覺工坊」新課程《徹底搞懂基于Open3D的點云處理教程!》。

704c7ef8-828b-11ee-939d-92fbcf53809c.png

5. 總結(jié)

感覺大模型在場景理解上越來越偏向人類的思維方式了,以前的實例分割只能檢測預定義的類別,現(xiàn)在居然可以分割"印有花卉圖案的扶手椅"這樣的實例,不得不感嘆AI的發(fā)展速度。OpenMask3D聲稱是第一個開放詞匯的3D實例分割模型,給定任意文本就可以查詢3D目標,甚至可以識別幾何信息、材料、顏色、位置關(guān)系這種語義信息,關(guān)鍵還是zero-shot的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2910

    瀏覽量

    107999
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31513

    瀏覽量

    270333
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2545

    瀏覽量

    3166

原文標題:NeurlPS'23開源 | 首個!開放詞匯3D實例分割!

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【原創(chuàng)&整理】Altium 常用3D設計封裝庫

    本帖最后由 first-tech 于 2013-4-3 23:28 編輯 Altium designer 3D設計應用越來越廣,應網(wǎng)友要求,在此發(fā)布常用的3D設計封裝庫,歡迎大家
    發(fā)表于 04-03 15:28

    分享一些開源3D打印創(chuàng)新

    嵌入式頂級程序員 開源繼續(xù)推動3D打印行業(yè)的快速創(chuàng)新。 如果您停下來想一想,這很有道理-存在3D打印機可以做其他事情。 將這一理念與免費軟件和開源硬件相結(jié)合,可以幫助其他人參與改進其制
    發(fā)表于 12-21 07:27

    3D視頻目標分割與快速跟蹤

    3D視頻目標分割與快速跟蹤_朱仲杰
    發(fā)表于 01-07 16:00 ?0次下載

    3D的感知技術(shù)及實踐

    測量表面法向量估計 幾何測量平面提取 3D重建從離散點云得到光滑曲面 3D重建ICP點云配準 3D重建SDF表面重建 應用例子:從稀疏的點云中,構(gòu)造出可以3D打印的模型
    的頭像 發(fā)表于 10-23 09:40 ?3292次閱讀
    <b class='flag-5'>3D</b>的感知技術(shù)及實踐

    世界首座3D打印鋼橋正式開放

    音圈模組3D打印的鋼橋開放啦。大家都知道,荷蘭首都阿姆斯特丹以其歷史建筑、運河和橋梁聞名于世,也是了世界上the first由3D打印的鋼橋。近日,這座橋已經(jīng)向公眾開放啦。
    發(fā)表于 08-11 17:34 ?480次閱讀

    燈塔3D打印和Arduino開源分享

    電子發(fā)燒友網(wǎng)站提供《燈塔3D打印和Arduino開源分享.zip》資料免費下載
    發(fā)表于 11-02 09:29 ?0次下載
    燈塔<b class='flag-5'>3D</b>打印和Arduino<b class='flag-5'>開源</b>分享

    首個無監(jiān)督3D點云物體實例分割算法

    本文旨在尋求一種無監(jiān)督的3D物體分割方法。我們發(fā)現(xiàn),運動信息有望幫助我們實現(xiàn)這一目標。如下圖1所示,在左圖中的藍色/橙色圓圈內(nèi),一輛汽車上的所有點一起向前運動,而場景中其他的點則保持靜止。那么理論上,我們可以基于每個點的運動,將場景中屬于汽車的點和其他點
    的頭像 發(fā)表于 11-09 15:15 ?2528次閱讀

    GMAW磁性球接頭3D打印開源

    電子發(fā)燒友網(wǎng)站提供《GMAW磁性球接頭3D打印開源.zip》資料免費下載
    發(fā)表于 06-16 15:34 ?0次下載
    GMAW磁性球接頭<b class='flag-5'>3D</b>打印<b class='flag-5'>開源</b>

    自研軟件賦能彈性體3D打印!清鋒LuxStudio&amp;amp;amp;LuxFlow讓用戶3D打印游刃有余

    導語:基于領先全球的3D打印柔性材料EM?23彈性材料,以及超高速光固化3D打印機iLuxPro及Lux3+,通過LuxStudio晶格設計&amp
    的頭像 發(fā)表于 02-17 10:23 ?777次閱讀
    自研軟件賦能彈性體<b class='flag-5'>3D</b>打印!清鋒LuxStudio&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;LuxFlow讓用戶<b class='flag-5'>3D</b>打印游刃有余

    定制笛卡爾3D打印機開源分享

    電子發(fā)燒友網(wǎng)站提供《定制笛卡爾3D打印機開源分享.zip》資料免費下載
    發(fā)表于 06-26 11:33 ?5次下載
    定制笛卡爾<b class='flag-5'>3D</b>打印機<b class='flag-5'>開源</b>分享

    3D打印底盤開源分享

    電子發(fā)燒友網(wǎng)站提供《3D打印底盤開源分享.zip》資料免費下載
    發(fā)表于 07-06 14:43 ?1次下載
    <b class='flag-5'>3D</b>打印底盤<b class='flag-5'>開源</b>分享

    CVPR 2023 | 華科&amp;amp;MSRA新作:基于CLIP的輕量級開放詞匯語義分割架構(gòu)

    本文提出了 SAN 框架,用于開放詞匯語義分割。該框架成功地利用了凍結(jié)的 CLIP 模型的特征以及端到端的流程,并最大化地采用凍結(jié)的 CLIP 模型。 簡介 本文介紹了一種名為Side
    的頭像 發(fā)表于 07-10 10:05 ?1172次閱讀
    CVPR 2023 | 華科&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;MSRA新作:基于CLIP的輕量級<b class='flag-5'>開放</b><b class='flag-5'>詞匯</b>語義<b class='flag-5'>分割</b>架構(gòu)

    NeurlPS&;apos;23開源 | 大規(guī)模室外NeRF也可以實時渲染

    神經(jīng)輻射場 (NeRF)是一種新穎的隱式三維重建方法,顯示出巨大的潛力,受到越來越多的關(guān)注。它能夠僅從一組照片中重建3D場景。然而,它的實時渲染能力,尤其是對于大規(guī)模場景的交互式實時渲染,仍然具有顯著的局限性。
    的頭像 發(fā)表于 11-08 16:41 ?1071次閱讀
    <b class='flag-5'>NeurlPS&</b>;<b class='flag-5'>apos</b>;<b class='flag-5'>23</b><b class='flag-5'>開源</b> | 大規(guī)模室外NeRF也可以實時渲染

    基于深度學習的3D點云實例分割方法

    3D實例分割3DIS)是3D領域深度學習的核心問題。給定由點云表示的 3D 場景,我們尋求為每
    發(fā)表于 11-13 10:34 ?2612次閱讀
    基于深度學習的<b class='flag-5'>3D</b>點云<b class='flag-5'>實例</b><b class='flag-5'>分割</b>方法

    三項SOTA!MasQCLIP:開放詞匯通用圖像分割新網(wǎng)絡

    MasQCLIP在開放詞匯實例分割、語義分割和全景分割三項任務上均實現(xiàn)了SOTA,漲點非常明顯。
    的頭像 發(fā)表于 12-12 11:23 ?885次閱讀
    三項SOTA!MasQCLIP:<b class='flag-5'>開放</b><b class='flag-5'>詞匯</b>通用圖像<b class='flag-5'>分割</b>新網(wǎng)絡
    财神百家乐的玩法技巧和规则| 百家乐官网分享| 天天百家乐的玩法技巧和规则| 赌场百家乐官网代理| 玩百家乐上高尔夫娱乐场| 怎样玩百家乐官网才能| 澳门顶级赌场娱乐平台| 百家乐技巧在那里| 百家乐官网游戏分析| 百家乐游戏| 百家乐官网真人现场| 百家乐官网视频下载| 百家乐德州扑克桌布| 百家乐官网一年诈骗多少钱| 茶陵县| 百家乐网页qq| 百家乐官网庄闲桌| 百家乐官网赢钱lv| 百家乐有试玩的吗| 百家乐官网倍投| 金冠百家乐官网娱乐城| 大发888娱乐城加盟| 百家乐技巧在那里| 百家乐官网的路图片| 优博线上娱乐| 银河百家乐的玩法技巧和规则| 旧金山百家乐官网的玩法技巧和规则| 庆城县| 水果机游戏下载| 御金百家乐娱乐城| 老钱庄百家乐官网的玩法技巧和规则| 百家乐官网取胜秘笈| 大发888官方网站登录| 御金百家乐娱乐城| 58百家乐官网的玩法技巧和规则 | 百家乐小音箱| 百家乐官网五湖四海娱乐城| 澳门百家乐注册| 喜洋洋水果机遥控器| 真钱百家乐哪里最好| 蓝盾百家乐官网平台|