1. 摘要
直接飛行時間(dToF)傳感器因其測量精度高、結構緊湊、響應速度快和低功耗,被視為下一代設備3D傳感的理想選擇。但由于制造限制,其數據空間分辨率較低(例如iPhone dToF約為20×30),需要進行超分辨處理才能供下游任務使用。
本文提出了一種利用高分辨率RGB圖像來增強低分辨率dToF數據的方法。不同于傳統的每幀融合RGB和深度的方法,我們采用了多幀融合策略,以減少低分辨率dToF圖像的空間模糊。此外,我們還利用了dToF傳感器提供的深度直方圖信息,這是一種dToF特有的特征,來進一步改善空間分辨率。
為了在復雜的室內動態環境下評估我們的模型,我們提供了大規模dToF傳感器數據集——DyDToF,這是第一個具有動態對象和遵循物理成像過程的RGB-dToF視頻數據集。我們相信隨著dToF深度傳感在移動設備上成為主流,我們提出的方法和數據集將促進行業的發展。
圖1. 我們第一個提出了多幀方法,dToF深度視頻超分辨率(DVSR)和直方圖視頻超分辨率(HVSR),利用高分辨率RGB幀引導進行低分辨率dToF傳感器視頻進行超分辨處理。深度預測的點云可視化顯示,通過利用多幀相關性,與單幀深度增強網絡相比,DVSR預測的幾何形狀更好,而參數更少;HVSR通過利用dToF直方圖信息進一步改善了幾何形狀的保真度并減少了飛點。除每幀估計的改進外,我們強烈建議讀者查看補充視頻,其可視化了整個序列中時間穩定性的顯著提高。(視頻鏈接:https://www.youtube.com/watch?v=77LTIDqhBjA&ab_channel=ZhanghaoSun)
2. 方法提出
在移動設備上進行深度估計,對導航、游戲和增強/虛擬現實至關重要。以前出現的深度估計傳感器·包括:雙目攝像和結構光等傳感器,以及間接飛行時間傳感器。最近,dToF傳感器因其精度高、體積小、功耗低而受關注。但由于制造限制,其空間分辨率很低,每個像素都整合了場景局部區域的深度,導致高分辨率重建存在明顯的空間模糊。以前基于RGB圖像引導的深度補全和超分辨率方法,要么假設存在高分辨采樣,要么使用簡化成像模型,直接應用到dToF數據效果不佳。如圖1第2列所示,預測遭受幾何畸變和飛點的影響。另一限制是它們僅處理單幀,而實際應用需要視頻流輸入,存在一定的時間連貫需求。逐幀處理RGB-depth視頻會忽略時間相關性,導致深度估計中顯著的時間抖動。
本文提出從兩個方面解決dToF數據的空間模糊:利用RGB-dToF視頻序列中的多幀信息融合和dToF直方圖信息。我們設計了dToF視頻超分辨網絡DVSR,輸入是高分辨率RGB圖像序列和低分辨率dToF深度圖,輸出是高分辨率深度圖序列。受RGB視頻處理算法的啟發,我們放寬多視圖約束,使用容錯的多幀對齊。相比逐幀處理,我們的網絡明顯提升了精度和時間連貫性。與逐幀處理基線相比,DVSR顯著提高了預測精度和時間一致性,如圖1第3列所示。
此外,dToF傳感器可提供每個像素的深度直方圖。我們設計了匹配該直方圖的流程,將其融入網絡,形成直方圖視頻超分辨框架HVSR。這進一步消除了空間模糊。如圖1第4列所示,與DVSR相比,HVSR的估計質量進一步提高。
深度網絡的訓練和測試數據集也很重要。以前,真實采集和高質量合成數據集都被廣泛使用。但是,它們都不包含具有大量動態對象的RGB-D視頻序列。為此,我們引入了DyDToF,這是一個具有動態動物(例如貓和狗)和dToF模擬器的多樣化室內場景的合成數據集。我們綜合了RGB圖像序列、深度圖、表面法線圖、材料反照率和相機姿態序列。據我們所知,這是第一個提供動態室內 RGB 深度視頻數據集。我們將基于物理的虛擬 dToF 傳感器集成到 DyDToF 數據集中,并分析(1)所提出的視頻處理框架如何推廣到動態場景,以及(2)低級數據模式如何促進網絡訓練和評估。
總結一下,我們的貢獻有:
引入RGB引導的dToF視頻深度超分辨率以解決這種移動3D傳感器固有的空間模糊性。
提出基于神經網絡的RGB-dToF視頻超分辨率算法,可以高效利用視頻中包含的豐富多幀信息和獨特的dToF直方圖。
提出第一個具有動態物體和基于物理的dToF傳感器模擬的室內RGB-D數據集。我們的算法在所提出的數據集上進行了系統評估,以驗證精度和時間一致性的顯著提升。
3. dToF基礎簡介
本節簡要介紹低分辨率dToF傳感器的圖像形成模型,并詳細闡述它與以前的深度增強任務的不同之處。
圖2. 直接飛行時間(dToF)傳感器工作原理。每個dToF像素記錄一個包含FoV內補丁深度信息的直方圖,導致空間模糊。dToF傳感器可以在“峰值檢測”模式或直方圖模式下運行。
如圖2所示,短光脈沖由脈沖激光器生成并發射到場景中。脈沖會散射,一部分光子將反射回dToF檢測器,觸發到達事件并記錄時間戳。根據激光發射和接收之間的時間差,場景深度由比例關系確定,其中是時間差,是光速。每個dToF像素捕獲其各自的視場(FoV)內的所有場景點反射的光,該FoV由整體傳感器FoV和空間分辨率確定。因此,它通常在多個時間槽記錄光子到達事件。第k個時間槽中的信號幅度可以表示為
其中是時間槽大小,是時間槽數(由dToF像素電路確定),是激光脈沖時間形狀,、是FoV內場景點的深度和輻射度。我們稱單個dToF像素記錄的維信號為“直方圖”。我們在下面的模擬和合成數據生成中使用這個圖像形成模型。與傳統的深度超分任務相似,這里我們假設低空間分辨率是輸入數據中的唯一退化。
dToF數據可以以兩種模式處理:“峰值檢測”模式和直方圖模式。在第一種模式下,在每個像素處執行直方圖峰值檢測。只有具有最強信號的峰值深度值被發送到后處理網絡。在第二種模式下,利用直方圖中包含的更多信息。在這兩種模式下,dToF數據都包含相對精確的深度信息,而側向空間信息只在低分辨率下已知(例如,所需分辨率的16倍更低)。這種空間模糊性使得深度超分任務比傳統的稀疏深度補全任務更具挑戰性。
4. 方法詳解
我們的網絡輸入是T幀序列。每幀包含一個空間分辨率為的RGB圖像和一個空間分辨率為的dToF數據,其中是下采樣因子(我們在所有實驗中使用)。在直方圖模式下,每個幀的dToF數據在時間維度上具有個時間槽,導致的數據量。在兩種模式下,我們的網絡預測一個高分辨率的深度圖序列。
4.1 dToF深度視頻超分辨率
圖3. (a)所提出的dToF視頻超分辨率框架。它通常遵循兩階段預測策略,其中兩個階段都預測一個深度圖和置信圖,并融合以獲得最終預測。特征在幀之間進行對齊和聚合,可以是雙向的或僅前向的。(b)基于靈活變形的多幀特征聚合示意圖。與嚴格遵循估計的光流不同,來自多個候選位置的特征在幀之間進行變形。(c)所提出的直方圖處理流程示意圖。完整直方圖通過峰值檢測和再分箱進行壓縮以產生近似直方圖。在置信預測階段,計算輸入直方圖與預測深度值生成的直方圖之間的直方圖距離,以估計預測的置信度。
整體RGB-dToF視頻超分辨率(DVSR)網絡架構如圖3(a)所示。該網絡以遞歸方式操作,其中多幀信息以僅前向或雙向傳播。在每幀中,我們執行兩階段處理以預測高分辨率深度圖(與RGB引導具有相同分辨率)。在第一階段,dToF傳感器數據與RGB引導融合以生成初始高分辨率深度預測和置信度圖。第一階段的處理結果和dToF傳感器數據作為輸入饋入第二階段細化網絡,以生成第二個深度預測和置信度圖。根據置信度圖,對初始和第二個深度預測進行融合以生成最終預測。除特征提取器和解碼器外,每個階段都包含一個多幀傳播模塊和一個融合骨干網絡,以充分交換時間信息并在時間上穩定深度估計。詳細的網絡架構在補充材料中提供。
以前的單目深度視頻處理算法通常對多視圖幾何提出“硬”圖心約束。在立體視頻處理中也采用“硬”對應搜索和運動對準。相反,我們給網絡選擇多個有用對應項的自由性。我們對預訓練的光流估計器進行聯合微調,而不對估計的流施加監督。我們還在基于光流的變形后包含可變形卷積模塊,以挑選多個特征聚合候選項(如圖3(b)所示)。這一操作進一步增加了靈活性,并補償流估計中的錯誤。這一設計選擇至少提供兩個好處:首先,該算法可以輕松推廣到靜態和這一設計選擇至少提供兩個好處:首先,該算法可以輕松推廣到靜態和動態環境。其次,幀之間的對應檢測不需要準確。盡管深度學習方法最近有進展,但仍缺少輕量、快速且準確的流估計器。特別是,為了在幀之間準確變形深度值,需要3D場景流估計,這比2D光流估計更具挑戰性。最先進的場景流估計器在準確性和僅限于剛體運動方面仍然存在比較低的問題。
4.2 dToF直方圖視頻超分辨率
基于深度視頻超分辨率網絡,我們進一步提出了一個直方圖視頻超分辨率(HVSR)網絡,以利用dToF傳感器提供的獨特直方圖信息。即使使用強大的機器,處理完整的直方圖數據也不可行。因此,我們首先在直方圖的時間維度上執行簡單的壓縮操作。對直方圖進行再分箱以在單目深度估計中強制網絡關注順序關系和更重要的深度范圍的技術已被提出。如圖3(c)所示,這里我們提出了一個類似的直方圖壓縮策略:首先,我們閾值直方圖以去除低于噪聲水平的信號。然后,將直方圖均勻劃分為段,并在每個段內檢測峰值。然后,我們將直方圖再分箱為由部分邊界和峰值定義的個時間槽。這個的數據量輸入神經網絡。
我們在兩個方面利用壓縮后的直方圖:首先,將檢測到的個峰值作為兩階段網絡的輸入進行連接。其次,我們計算直方圖匹配誤差來促進置信度預測。預測的高分辨率深度圖被劃分為補丁,每個補丁對應一個dToF像素。將補丁內的深度值根據圖像形成模型(等式1)轉換為直方圖。然后,將預測的直方圖與輸入的dToF直方圖進行比較。我們根據Wasserstein距離定義這兩個直方圖之間的差異。
較大的表示對應補丁內的預測不太可靠,應該在細化中被賦予較低的置信度。直方圖匹配誤差被輸入到網絡兩階段中的置信度預測層。
4.3 實現細節
我們在TarTanAir大規模RGB-D視頻數據集上訓練所提出的dToF深度和直方圖視頻超分辨率網絡。我們使用14個場景進行訓練,每個場景有300、600、600、600幀。我們從真值深度圖按照圖像形成模型(等式1)模擬dToF原始數據。由于TarTanAir數據集僅提供RGB圖像,我們使用平均灰度圖像來逼近輻射度。我們在所提出的DyDToF數據集中解決了這個問題,以獲得更真實的dToF模擬。
我們使用每幀的Charbonnier損失與和梯度損失對網絡進行監督。
其中分別是第幀的真值和估計深度圖,是梯度算子。在訓練過程中,我們將數據集中的長序列劃分為較短的幀序列。對于每個視頻片段,我們將深度值裁剪到[0,40]并歸一化到[0,1]。在所有實驗中,我們將空間超分辨率因子設置為16,壓縮直方圖中的時間槽數設置為4。我們總共訓練大約15萬次迭代,批量大小為32。我們使用Adam優化器,學習率為,以及學習率衰減因子為0.2的多步學習率衰減調度器。在8×Nvidia Tesla-V100 GPU上訓練大約需要2天。
5. 結果展示
我們在多個RGB-D數據集上對所提出的dToF視頻超分辨率網絡進行評估。由于沒有現成的算法直接適用于dToF傳感器超分任務,我們重新訓練了兩種最新的每幀深度增強/補全網絡NLSPN和PENet,使用相同的訓練設置作為我們的基線。另一個基線是我們將所提出的DVSR網絡以每幀方式操作。我們使用三個指標評估深度超分辨結果:每幀絕對誤差(AE)(更低更好)、每幀指標(更高更好)和時間端點誤差(TEPE)(更低更好)。
其中是從第幀到第幀的變形運算。我們使用真值光流進行這種變形,并使用PyTorch3D中的遮擋感知變形模塊來避免遮擋導致的偽像。
表1. 在TarTanAir、Replica和DyDToF數據集上的定量比較。粗體表示最佳結果,下劃線表示第二佳結果。我們的網絡在合成的TarTanAir數據集上訓練,其包含靜態場景,但泛化良好到真實場景的Replica數據集和動態場景的DyDToF數據集。
TarTanAir數據集評估。我們在TarTanAir數據集中使用4個場景進行評估,每個場景分別有300、600、600、600幀。如表1所示,兩個視頻處理網絡一致優于每幀基線,盡管參數更少。這驗證了多幀信息聚合的有效性,因為當以每幀方式操作時,所提出的網絡性能較差。通過利用dToF直方圖信息,HVSR進一步提升了估計質量。
圖4. 在TarTanAir場景(a)和Replica場景(b)上的定性比較。DVSR和HVSR相比每幀基線明顯優越,尤其是在放大區域。請參閱補充視頻或項目頁面以獲得更好的時間可視化。
我們在圖4(a)中進行定性比較。與每幀基線相比,視頻處理網絡取得了更高的深度質量,特別是在細結構(如椅子扶手和薄枕頭)方面(更好的可視化在放大的邊界框中)。顯然,在多幀中聚合信息可以緩解處理中的空間模糊性,因為細結構在一幀中可能不可見,但在其鄰近幀中可能出現。
Replica數據集評估。Replica是一個真實捕獲的室內3D數據集,具有真實的場景紋理和高質量幾何。我們使用相同的數據合成流水線從真值深度和RGB圖像生成低分辨率的dToF數據。我們在表1第二列中展示了我們的網絡(無微調)在Replica數據集上的跨數據集泛化能力。由于Replica數據集中沒有真值光流,我們不評估時間指標。我們還在圖4(b)中進行定性比較。
圖5. x-t切片(沿虛線)用于時間穩定性可視化。與視頻處理結果相比,每幀基線的時間輪廓更加嘈雜,而HVSR揭示了更多細節。
時間穩定性。我們還在圖5中可視化估計深度圖的x-t切片的時間穩定性。每幀處理引入明顯的時間抖動,在x-t切片上可視化為嘈雜/模糊偽像。DVSR和HVSR都具有清晰的x-t切片,展示了它們的高時間穩定性,而HVSR進一步揭示了DVSR預測中不可見的細結構。請參閱補充視頻或項目頁面以獲得更好的時間可視化。
6. DyDToF RGB-dToF視頻數據集
由于缺乏動態RGB-D視頻數據集,我們引入了DyDToF,其中室內環境中插入了動物動畫。數據集概述如圖6所示。該數據集包含100個序列(總共45k幀)的RGB圖像、深度圖、法線圖、材料反照率和相機姿態,這些都是從Unreal Engine與開源插件EasySynth生成的。我們使用約30種動物網格(包括狗、貓、鳥等)和約50種相關動畫生成數據集,并將它們放置在20個室內環境中(包括學校、辦公室、公寓等)。所有3D資產都從公開可用的資源中購買。
圖6. DyDToF數據集概述。(a)我們將動態動物模型插入到各種高質量的室內環境地圖中。(b)我們生成RGB圖像、深度圖、法線圖、材料反照率和相機姿態序列。
6.1 動態對象評估
我們在DyDToF數據集上進行了類似評估,重點關注動態對象的深度估計。定量比較如表1第3列所示。我們還在圖7(a)中展示了一幅來自吠叫狗動畫的幀,進行定性比較。雖然TarTanAir數據集包含非常有限的動態對象,但所提出的視頻網絡推廣到動態場景的效果很好。我們將此歸因于我們靈活的、容錯的多幀對齊模塊。請參閱我們的補充材料中的消融研究。
圖7. 在DyDToF數據集上的評估。(a)提出的網絡DVSR和HVSR在具有動態對象的情況下表現良好,而每幀基線遭受畸變和模糊的影響。(b) 在TarTanAir數據集上訓練的HVSR在RGB圖像強度與渲染方程計算的輻射度之間存在不匹配時會失敗(II)。通過在DyDToF數據集上進行微調,這種偽像大大得到緩解,DyDToF數據集采用了更真實的dToF模擬(III)。
6.2 更真實的dToF模擬
如第5節所述,由于TarTanAir數據集不提供材料反照率和表面法線,我們用RGB圖像逼近輻射度。根據渲染方程,實際輻射度由材料反照率、觀察方向和表面法線確定。
由于我們假設dToF傳感器中的激光器和接收器共定位,因此觀察方向與激光照明方向平行。
我們在DyDToF數據集中使用這個公式生成更真實的dToF模擬,并微調在TarTanAir數據集上預訓練的網絡。我們在圖7(b)中展示一個極端情況,其中架子的一側面具有非常低的輻射度,因為表面法線與dToF激光發射方向近乎垂直。由于光源與攝像頭不共定位,RGB圖像中不存在此效應。如第3列(I)所示,當在dToF直方圖模擬中使用RGB圖像時,預訓練的HVSR推廣良好。但是,當在dToF模擬中使用物理正確的輻射度時,預訓練的HVSR失敗,出現大的幾何畸變(II)。通過在DyDToF上微調HVSR,它適應了預測的直方圖與基礎幾何之間更真實的關系,并避免失敗(III)。
7. 多幀融合消融研究
表2. 多幀融合模塊的消融研究。
我們首先比較各種多幀融合模塊,如表2所示。在最簡單的情況下,多個幀的特征被連接而不對齊。這顯著降低了性能,因為不同空間位置的特征被融合在一起?;诹鞯膶R使用預訓練(固定)的光流估計器對齊幀之間的特征。但是,這種方法受到流估計不準確和前景-背景混合的基本問題的影響。我們提出的框架中的靈活變形避免了這些問題,并給網絡選擇從變形特征中挑選有用信息的自由度。我們的完整多幀融合模塊利用雙向傳播。但是,這禁止在線操作,因為需要未來信息。為此,我們用僅前向傳播替換雙向傳播。如表2第三行所示,這也犧牲了性能,但與每幀處理基線和其他低效對齊策略相比,它仍實現了一致的改進。
8. 結論
本文針對dToF傳感器的數據特點,設計了視頻深度超分辨網絡。多幀融合可明顯提升精度、時間連貫性和對動態場景的泛化。使用傳感器的直方圖信息也可進一步改善細節。我們構建的第一室內動態RGB-D數據集——DyDToF,能更好地反映實際應用場景,并具有dToF傳感器的仿真。它不僅限于dToF傳感器應用,還有可能為通用動態場景3D重建和新視圖合成算法確立新的基準。
-
傳感器
+關注
關注
2553文章
51387瀏覽量
756546 -
數據集
+關注
關注
4文章
1209瀏覽量
24829 -
dToF
+關注
關注
2文章
93瀏覽量
8077
原文標題:?CVPR2023 | 直接飛行時間(DToF)視頻的深度一致超分辨率重建
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論