那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用自監督學習重建動態駕駛場景

NVIDIA英偉達企業解決方案 ? 來源:未知 ? 2023-12-16 16:05 ? 次閱讀

wKgaomV9W2eACTqvAI2RUKtEaQ8569.gif

無論是單調的高速行車,還是平日的短途出行,駕駛過程往往平淡無奇。因此,在現實世界中采集的用于開發自動駕駛汽車(AV)的大部分訓練數據都明顯偏向于簡單場景。

這給部署魯棒的感知模型帶來了挑戰。自動駕駛汽車必須接受全面的訓練、測試和驗證,以便能夠應對復雜的場景,而這需要大量涵蓋此類場景的數據。

在現實世界中,收集此類場景數據要耗費大量時間和成本。而現在,仿真提供了另一個可選方案。但要大規模生成復雜動態場景仍然困難重重。

在近期發布的一篇論文中,NVIDIA Research 展示了一種基于神經輻射場(NeRF)的新方法——EmerNeRF 及其如何使用自監督學習準確生成動態場景。通過自監督方法訓練,EmerNeRF 在動靜態場景重建上的表現超越了之前其他 NeRF 方法。詳細情況請參見 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

wKgaomV9W2iAWIQRAIG3gjsjUmk047.gif

wKgaomV9W2qAEBhsAHW-H-Nc2wI223.gif

wKgaomV9W2uADx4ZAGFS9lTdEQ0746.gif

圖 1. EmerNeRF 重建動態駕駛場景的示例

相比其他 NeRF 重建方法,EmerNeRF 的動態場景重建準確率高出 15%,靜態場景高出 11%。新視角合成的準確率也高出 12%。

打破 NeRF 方法的局限性

NeRF 將一組靜態圖像重建成逼真的 3D 場景。這使得依據駕駛日志重建用于 DNN 訓練、測試驗證的高保真仿真環境成為可能。

然而,目前基于 NeRF 的重建方法在處理動態物體時十分困難,而且實踐證明難以擴展。例如有些方法可以生成靜態和動態場景,但它們依賴真值(GT)標簽。這就意味著必須使用自動標注或人工標注員先來準確標注出駕駛日志中的每個物體。

其他 NeRF 方法則依賴于額外的模型來獲得完整的場景信息,例如光流。

為了打破這些局限性,EmerNeRF 使用自監督學習將場景分解為靜態、動態和流場(flow fields)。該模型從原始數據中學習前景、背景之間的關聯和結構,而不依賴人工標注的 GT 標簽。然后,對場景做時空渲染,并不依賴外部模型來彌補時空中的不完整區域,而且準確性更高。

wKgaomV9W22ANZJBAIreJrPM29Q814.gif

圖 2. EmerNeRF 將圖 1 第一段視頻中的場景分解為動態場、靜態場和流場

因此,其他模型往往會產生過于平滑的背景和精度較低的動態物體(前景),而 EmerNeRF 則能重建高保真的背景及動態物體(前景),同時保留場景的細節。

wKgaomV9W22AEIs2AAHQ9VA5HZs560.png

表 1. 將 EmerNeRF 與其他基于 NeRF 的動態場景重建方法進行比較后的評估結果,分為場景重建性能和新視角合成性能兩個類別

wKgaomV9W22AfcY9AAA2G6E-KP4237.png

表 2. 將 EmerNeRF 與其他基于 NeRF 的靜態場景重建方法進行比較后的評估結果

EmerNeRF 方法

EmerNeRF 使用的是自監督學習,而非人工注釋或外部模型,這使得它能夠避開之前方法所遇到的難題。

wKgaomV9W26AEUZHAAIDIitNPLA183.png

圖 3.EmerNeRF 分解和重建管線

EmerNeRF 將場景分解成動態和靜態元素。在場景分解的同時,EmerNeRF 還能估算出動態物體(如汽車和行人)的流場,并通過聚合流場在不同時間的特征以進一步提高重建質量。其他方法會使用外部模型提供此類光流數據,但通常會引入偏差。

通過將靜態場、動態場和流場結合在一起,EmerNeRF 能夠充分表達高密度動態場景,這不僅提高了重建精度,也方便擴展到其他數據源。

使用基礎模型加強語義理解

EmerNeRF 對場景的語義理解,可通過(視覺)基礎大模型監督進一步增強。基礎大模型具有更通用的知識(例如特定類型的車輛或動物)。EmerNeRF 使用視覺 Transformer(ViT)模型,例如 DINO, DINOv2,將語義特征整合到場景重建中。

這使 EmerNeRF 能夠更好地預測場景中的物體,并執行自動標注等下游任務。

wKgaomV9W2-AXLGcAEMAJKXvMk4609.gif

圖 4. EmerNeRF 使用 DINO 和 DINOv2 等基礎模型加強對場景的語義理解

不過,基于 Transformer 的基礎模型也帶來了新的挑戰:語義特征可能會表現出與位置相關的噪聲,從而大大限制下游任務的性能。

wKgaomV9W3CAHehyAD0gOpmySM4007.gif

圖 5. EmerNeRF 使用位置嵌入消除基于 Transformer 的基礎模型所產生的噪聲

為了解決噪聲問題,EmerNeRF 通過位置編碼分解來恢復無噪聲的特征圖。如圖 5 所示,這樣就解鎖了基礎大模型在語義特征上全面、準確的表征能力。

評估 EmerNeRF

正如 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision 中所述,研究人員整理出了一個包含 120 個獨特場景的數據集來評估 EmerNeRF 的性能,這些場景分為 32 個靜態場景、32 個動態場景和 56 個多樣化場景,覆蓋了高速、低光照等具有挑戰性的場景。

然后根據數據集的不同子集,評估每個 NeRF 模型重建場景和合成新視角的能力。

如表 1 所示,據此,EmerNeRF 在場景重建和新視角合成方面的表現始終明顯優于其他方法。

EmerNeRF 的表現還優于專門用于靜態場景的方法,這表明將場景分解為靜態和動態元素的自監督分解既能夠改善靜態重建,還能夠改善動態重建。

總結

自動駕駛仿真只有在能夠準確重建現實世界的情況下才會有效。隨著場景的日益動態化和復雜化,對保真度的要求也越來越高,而且更難實現。

與以前的方法相比,EmerNeRF 能夠更準確地表現和重建動態場景,而且無需人工監督或外部模型。這樣就能大規模地重建和編輯復雜的駕駛數據,解決目前自動駕駛汽車訓練數據集的不平衡問題。

NVIDIA 正迫切希望研究 EmerNeRF 帶來的新功能,如端到端駕駛、自動標注和仿真等。

如要了解更多信息,請訪問 EmerNeRF 項目頁面并閱讀 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

了解更多

  • 適用于自動駕駛汽車的解決方案

    https://www.nvidia.cn/self-driving-cars/

  • EmerNeRF 項目頁面

    https://emernerf.github.io/

  • 閱讀 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision.

    https://arxiv.org/abs/2311.02077

GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行,線上大會也將同期開放。點擊“閱讀原文”掃描下方海報二維碼,立即注冊 GTC 大會


原文標題:使用自監督學習重建動態駕駛場景

文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    22

    文章

    3847

    瀏覽量

    91972

原文標題:使用自監督學習重建動態駕駛場景

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    時空引導下的時間序列監督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列無監督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作,核心在于提出了將空間信息融入到預訓練階段,即在預訓練階段
    的頭像 發表于 11-15 11:41 ?332次閱讀
    時空引導下的時間序列<b class='flag-5'>自</b><b class='flag-5'>監督學習</b>框架

    HarmonyOS NEXT應用元服務開發內容動態變化場景

    適用場景:界面上重要內容在動態變化后,需要實時發送變化后的朗讀內容 說明:如果界面上內容發生動態變化且其內容對用戶具有必要的提示/告知/指導作用,則其發生變化后需對其變化內容進行朗讀,可調用無障礙
    發表于 10-29 10:52

    連數字化健康管理方案應用全場景

    連智能終端產品系列中,有 兩款 藍牙網關是動態健康管理的理想解決方案。 DGW412網關 藍牙轉4G數據傳輸功能 ??適用于佩戴動態監測設備進行較大范圍移動,數據需要穩定傳輸的場景
    的頭像 發表于 09-09 18:29 ?1021次閱讀
    <b class='flag-5'>自</b>連數字化健康管理方案應用全<b class='flag-5'>場景</b>

    神經重建在自動駕駛模擬中的應用

    AD和ADAS系統需要在能代表真實世界的3D環境條件下,依靠閉環驗證確保安全性和性能,然而手工構建的3D環境很難解決Sim2Real的差距并且在可擴展方面存在一定的局限性。為此康謀為您介紹神經重建如何打破限制,在自動駕駛模擬中的具體應用。
    的頭像 發表于 08-21 10:03 ?1076次閱讀
    神經<b class='flag-5'>重建</b>在自動<b class='flag-5'>駕駛</b>模擬中的應用

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 監督學習:模型采用
    發表于 08-02 11:03

    基于大模型的仿真系統研究一——三維重建大模型

    問題,賽目推出了基于大模型的仿真系統,利用機器學習、深度學習等人工智能技術,不僅推出自動標注大模型、多模態檢測大模型和場景生成大模型等模塊,并且引入三維重建大模型加強渲染畫面真實性。
    的頭像 發表于 07-30 14:51 ?1813次閱讀
    基于大模型的仿真系統研究一——三維<b class='flag-5'>重建</b>大模型

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    章節最后總結了機器學習的分類:有監督學習、無監督學習、半監督學習監督學習和強化
    發表于 07-25 14:33

    神經網絡如何用無監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中無監督學習是一種重要的訓練策略。無監督學習旨在從未標記的數據中發現數據內在的結構、模式或規律,從而提取有用的特征表示。這種訓練方式對于大規模未
    的頭像 發表于 07-09 18:06 ?896次閱讀

    深度學習中的無監督學習方法綜述

    應用中往往難以實現。因此,無監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的無監督學習方法,包括自編碼器、生成對抗網絡、聚類算法等,并分析它們的原理、應用
    的頭像 發表于 07-09 10:50 ?946次閱讀

    標貝數據采集標注在自動駕駛場景中落地應用實例

    AI數據服務作為人工智能和機器學習的基礎,在自動駕駛領域中有著重要地位。與其他人工智能應用場景相比,自動駕駛的落地場景相對復雜,想要讓汽車本
    的頭像 發表于 05-28 14:22 ?713次閱讀
    標貝數據采集標注在自動<b class='flag-5'>駕駛</b><b class='flag-5'>場景</b>中落地應用實例

    監督深度學習實現單次非相干全息3D成像

    論文信息 背景引入 數字全息術因其能夠從單一視點對3D場景進行成像而備受關注。與直接成像相比,數字全息是一種間接的多步驟成像過程,包括光學記錄全息圖和數值計算重建,為包括深度學習在內的計算成像方法
    的頭像 發表于 05-13 17:38 ?498次閱讀
    無<b class='flag-5'>監督</b>深度<b class='flag-5'>學習</b>實現單次非相干全息3D成像

    康謀分享 | aiSim5仿真場景重建感知置信度評估(三)

    aiSim5能重建高精度的賽道、車庫、高速公路等真實交通場景,用于測試和訓練ADAS/AD系統。通過全局行動日志,能將駕駛數據轉化為場景重建
    的頭像 發表于 05-08 16:59 ?2487次閱讀
    康謀分享 | aiSim5仿真<b class='flag-5'>場景</b><b class='flag-5'>重建</b>感知置信度評估(三)

    CVPR&apos;24 Highlight!跟蹤3D空間中的一切!

    為了使用三維運動先驗正則化估計的三維軌跡,模型另外預測了每條軌跡的剛性嵌入,這使能夠軟地分組表現出相同剛性體運動的像素,并為每個剛性集群強制執行ARAP正則化。作者證明了剛性嵌入可以通過監督學習,并產生不同剛性部分的合理分割。
    的頭像 發表于 04-13 12:12 ?1324次閱讀
    CVPR&apos;24 Highlight!跟蹤3D空間中的一切!

    機器學習基礎知識全攻略

    監督學習通常是利用帶有專家標注的標簽的訓練數據,學習一個從輸入變量X到輸入變量Y的函數映射。Y = f (X),訓練數據通常是(n×x,y)的形式,其中n代表訓練樣本的大小,x和y分別是變量X和Y的樣本值。
    發表于 02-25 13:53 ?285次閱讀
    機器<b class='flag-5'>學習</b>基礎知識全攻略

    OpenAI推出Sora:AI領域的革命性突破

    大模型的核心技術是自然語言處理(NLP)和深度學習。具體而言,它基于Transformer架構,使用了大規模無監督學習方法,例如回歸語言建模和掩碼語言建模,來訓練一個龐大的神經網絡模型。
    發表于 02-21 16:36 ?1052次閱讀
    OpenAI推出Sora:AI領域的革命性突破
    麻将二八杠游戏| 百家乐赢钱皇冠| a8娱乐城官方网站| 百家乐是骗人的| 望奎县| 浩博百家乐娱乐城| 依兰县| 罗马百家乐的玩法技巧和规则| 百家乐官网赌场现金网平台排名| 大发888是怎么吃钱不| 百家乐官网看点打法| 互博百家乐的玩法技巧和规则| 澳门百家乐官网骗人| 鸿博,| 大发888游戏平台电子| 百家乐投注必胜法| 百家乐官网现金平台排名| 水果老虎机破解| 百家乐赌假的工具| 太阳城百家乐官网作弊| 456棋牌游戏| 百家乐官网诀| 思茅市| 水果机破解器多少钱| 百家乐的保单打法| 百家乐官网象棋赌博| 大佬娱乐城怎么样| A8百家乐娱乐网| 先锋百家乐官网的玩法技巧和规则| 祁阳县| 大发888真人游戏平台| 百家乐信誉好的平台| 百家乐官网游乐园 | 大发888真钱娱乐游戏博彩| 富田太阳城二手房| 百家乐开放词典新浪| 百家乐官网赌博大赢家| 武陟县| 飞7棋牌游戏| 乐天堂百家乐娱乐城| 百家乐在线投注顺势法|