棋牌游戏代理商怎么寻找客户,线路检测最佳平台是什么意思呀,体育竞技的意义与价值(中国)·官方网站

1、筆者導(dǎo)讀

我們提出了一種名為OccNeRF的方法，用于自監(jiān)督多相機(jī)3D占用預(yù)測。該方法通過參數(shù)化重建的占用場來表示無限空間，并通過神經(jīng)渲染將占用場轉(zhuǎn)換為多相機(jī)深度圖。為了提供幾何和語義監(jiān)督，該方法利用多幀圖像之間的光度一致性進(jìn)行監(jiān)督。此外，為了語義占用預(yù)測，該方法還設(shè)計(jì)了幾種策略來處理預(yù)訓(xùn)練的開放詞匯模型。

2、解決了什么？

本研究提出了一種自監(jiān)督的多攝相機(jī)3D占據(jù)預(yù)測方法，名為OccNeRF。該方法旨在解決無界場景的建模問題。

3、方法

主要包括以下幾個(gè)方面：

參數(shù)化占用場景表示：

使用神經(jīng)輻射場（Neural Radiance Fields，NeRF）來表示占用場景。

引入?yún)?shù)化坐標(biāo)系，將無界的場景表示為有界的占用場景。

使用參數(shù)化坐標(biāo)系中的體素來表示占用場景的內(nèi)部和外部區(qū)域。

使用占用場景的體素表示來訓(xùn)練網(wǎng)絡(luò)。

多攝像頭特征聚合

對于每個(gè)攝像頭，將其對應(yīng)的圖像特征投影到參數(shù)化坐標(biāo)系中的體素上。

使用雙線性插值將投影后的特征聚合為體素特征。

使用三維卷積網(wǎng)絡(luò)提取特征并預(yù)測最終的占用輸出。

多幀深度估計(jì)

使用體素渲染技術(shù)將占用場景投影到多攝像頭的深度圖上。

通過沿著攝像頭中心到像素的射線采樣一系列點(diǎn)，計(jì)算對應(yīng)像素的深度值。

使用渲染權(quán)重代替密度來適應(yīng)占用場景的表示。

使用多幀光度損失來訓(xùn)練深度估計(jì)模型。

開放詞匯語義監(jiān)督

使用多攝像頭圖像的二維語義標(biāo)簽提供像素級的語義監(jiān)督。

通過將預(yù)訓(xùn)練的開放詞匯模型的輸出與圖像特征進(jìn)行對齊，生成二維語義標(biāo)簽。

使用二維語義標(biāo)簽來訓(xùn)練網(wǎng)絡(luò)，提高幾何一致性和體素之間的空間關(guān)系的捕捉能力。

4、損失函數(shù)

研究所涉及的損失函數(shù)有以下幾種：

渲染損失：用于訓(xùn)練神經(jīng)輻射場（Neural Radiance Fields，NeRF）模型的監(jiān)督信號(hào)。通過計(jì)算渲染的像素顏色與真實(shí)像素顏色之間的差異來衡量模型的性能。

時(shí)序光度損失：用于多幀深度估計(jì)的監(jiān)督信號(hào)。通過將相鄰幀投影到當(dāng)前幀，并計(jì)算投影圖像與原始圖像之間的重構(gòu)誤差來訓(xùn)練模型。

語義損失：用于語義三維占據(jù)預(yù)測的監(jiān)督信號(hào)。通過提供多相機(jī)圖像的二維語義標(biāo)簽，幫助網(wǎng)絡(luò)捕捉幾何一致性和體素之間的空間關(guān)系。

5、實(shí)驗(yàn)結(jié)果

本研究采用了自監(jiān)督的多相機(jī)占據(jù)預(yù)測方法，稱為OccNeRF。我們的實(shí)驗(yàn)方法和結(jié)果如下：

數(shù)據(jù)集：本研究在nuScenes數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，該數(shù)據(jù)集包含600個(gè)場景用于訓(xùn)練，150個(gè)場景用于驗(yàn)證，150個(gè)場景用于測試。數(shù)據(jù)集包含大約40000幀圖像和17個(gè)類別。

自監(jiān)督深度估計(jì)：首先，將LiDAR點(diǎn)云投影到每個(gè)視角上，得到深度圖作為自監(jiān)督深度估計(jì)的輸入。然后，使用神經(jīng)輻射場（Neural Radiance Fields，NeRF）方法進(jìn)行深度估計(jì)。NeRF使用渲染方程將3D場景中的顏色和深度信息映射到2D圖像中。本研究在NeRF的基礎(chǔ)上進(jìn)行改進(jìn)，引入了時(shí)間光度約束和多幀渲染，以提高深度估計(jì)的準(zhǔn)確性。

占據(jù)預(yù)測：為了預(yù)測場景中的占據(jù)情況，本研究使用了Grounding DINO模型和Grounded-SAM模型。首先，使用Grounding DINO模型生成檢測邊界框和對應(yīng)的logits和短語。然后，將這些信息輸入到Grounded-SAM模型中，生成精確的語義分割二值掩碼。最后，使用體素渲染技術(shù)將語義標(biāo)簽投影到圖像空間中，得到占據(jù)預(yù)測結(jié)果。

實(shí)驗(yàn)評估：本研究使用了多個(gè)評估指標(biāo)來評估深度估計(jì)和占據(jù)預(yù)測的性能，包括絕對相對誤差（Abs Rel）、平方相對誤差（Sq Rel）、均方根誤差（RMSE）等。同時(shí)，與其他自監(jiān)督和有監(jiān)督方法進(jìn)行了比較，以驗(yàn)證OccNeRF方法的優(yōu)越性。

5、總結(jié)

本研究通過自監(jiān)督深度估計(jì)和占據(jù)預(yù)測方法，實(shí)現(xiàn)了對多攝像頭場景中的占據(jù)情況的準(zhǔn)確預(yù)測。實(shí)驗(yàn)結(jié)果表明，OccNeRF方法在深度估計(jì)和占據(jù)預(yù)測方面取得了較好的性能。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴