我們近期的工作:3D視覺大模型Uni3D在ICLR 2024的評審中獲得了688分,被選為Spotlight Presentation
在本文中,我們第一次將3D基礎模型成功scale up到了十億(1B)級別參數(shù)量,并使用一個模型在諸多3D下游應用中取得SoTA結(jié)果。代碼和各個scale的模型(從6M-1B)均已開源,歡迎大家關注和使用:
論文:https://https://arxiv.org/pdf/2310.06773
代碼:https://https://github.com/baaivision/Uni3D
我們主要探索了3D視覺中scale up模型參數(shù)量和統(tǒng)一模型架構的可能性。在NLP / 2D vision領域,scale up大模型(GPT-4,SAM,EVA等)已經(jīng)取得了很impressive的結(jié)果,但是在3D視覺中模型的scale up始終沒有成功。我們旨在將NLP/2D中scale up的成功復現(xiàn)到3D表征模型上。
在這項工作中,我們提出了一個3D基礎大模型Uni3D,直接將3D backbone統(tǒng)一為ViT(Vision Transformer),以此利用豐富和強大的2D預訓練大模型作為初始化。Uni3D使用CLIP模型中的文本/圖像表征作為訓練目標,通過學習三個模態(tài)的表征對齊(點云-圖像-文本)實現(xiàn)3D點云對圖像和文本的感知。同時,通過使用ViT中成功的scale up策略,我們將Uni3D逐步 scale up,訓練了從Tiny到giant的5個不同scale的Uni3D模型,成功地將Uni3D擴展到10億級別參數(shù)。
Uni3D模型不同scale下的參數(shù)量和zero-shot分類結(jié)果
Uni3D在多個3D任務上達到SoTA,如:zero-shot classification, few-shot classification,open-world understanding, open-world part segmentation.
Zero-shot classification
Real-world zero-shot recognition
由于學到了強大的多模態(tài)表征能力,Uni3D還能夠做一些有意思的應用,如point cloud painting(點云繪畫),text/image-based 3D shape retrieval(基于圖像/文本的3D模型檢索),point cloud captioning(點云描述):
Point cloud painting
Image-based 3D shape retrieval
Text-based 3D shape retrieval
Point cloud captioning.
-
3D視覺
+關注
關注
4文章
435瀏覽量
27629 -
大模型
+關注
關注
2文章
2552瀏覽量
3175
原文標題:ICLR 2024 | 高分工作!Uni3D:3D基礎大模型,刷新多個SOTA!
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
SciChart 3D for WPF圖表庫
![SciChart <b class='flag-5'>3D</b> for WPF圖表庫](https://file1.elecfans.com/web3/M00/06/FA/wKgZPGeR2MGACTO-AAB0dyVzDd0112.png)
騰訊混元3D AI創(chuàng)作引擎正式發(fā)布
高分子微納米功能復合材料3D打印加工介紹
![<b class='flag-5'>高分</b>子微納米功能復合材料<b class='flag-5'>3D</b>打印加工介紹](https://file1.elecfans.com/web3/M00/06/DA/wKgZPGeQahyAWfftAAAXJAExRC4610.jpg)
騰訊混元3D AI創(chuàng)作引擎正式上線
安寶特產(chǎn)品 安寶特3D Analyzer:智能的3D CAD高級分析工具
![安寶特產(chǎn)品 安寶特<b class='flag-5'>3D</b> Analyzer:智能的<b class='flag-5'>3D</b> CAD高級分析工具](https://file1.elecfans.com//web2/M00/01/DD/wKgaomay2D6AG6EQAAB08LjHuJA11.webp)
安寶特產(chǎn)品 3D Evolution : 基于特征實現(xiàn)無損CAD格式轉(zhuǎn)換
![安寶特產(chǎn)品 <b class='flag-5'>3D</b> Evolution : 基于特征實現(xiàn)無損CAD格式轉(zhuǎn)換](https://file1.elecfans.com//web2/M00/00/CF/wKgZomax7C2AFSFlAABXrBENEj498.webp)
歡創(chuàng)播報 騰訊元寶首發(fā)3D生成應用
![歡創(chuàng)播報 騰訊元寶首發(fā)<b class='flag-5'>3D</b>生成應用](https://file1.elecfans.com//web2/M00/FE/11/wKgaomaYjm2AAs3TAAB3LCRK4z892.webp)
裸眼3D筆記本電腦——先進的光場裸眼3D技術
奧比中光3D相機打造高質(zhì)量、低成本的3D動作捕捉與3D動畫內(nèi)容生成方案
ad19中3d模型不顯示?
包含具有多種類型信息的3D模型
Stability AI推出全新Stable Video 3D模型
Stability AI推出Stable Video 3D模型,可制作多視角3D視頻
![](https://file1.elecfans.com/web2/M00/C5/CE/wKgaomX4xO2AEYO-AABXvRldnzQ502.png)
評論