作者:一杯紅茶?
首先,視覺定位指估計拍攝一幅圖像時相機的位姿,這可以是六自由度、三自由度或者兩自由度的位姿,要想獲得準確的位姿估計結果,一般都需要一個地圖先驗,發展研究至今,出現了許許多多的地圖形式,這包括傳統的點云地圖(稀疏/稠密)、壓縮后的點云地圖、Mesh地圖、CAD地圖、線地圖、神經網絡隱式表征的地圖、平面圖、無地圖等等各種形式地圖,所以最近一直在思考什么樣的地圖形式對于視覺定位來說才是最好的最優的呢?
地圖分類:
我自己根據我所讀到的視覺定位相關的文章,對所用到的各種地圖形式整理在如下表格中,可能有所不全,歡迎補充。
對各種地圖形式的分析:
點云地圖:
首先是點云地圖,這是目前視覺定位中最常見的一種地圖形式,一般由SFM或者SLAM生成構造。
優點是:發展起步很早,各種相關算法都比較成熟,比如點的特征提取、匹配、對極幾何、三角化、BA、PNP等等;所以以此為基礎的視覺定位算法精度、魯棒性都很高。
缺點是:由于點云地圖中三維點數量龐大,其實相對于視覺定位任務來說是冗余的,所以其地圖的存儲消耗比較大,計算效率往往不高,這限制了在移動端的應用部署。
相關算法參考文獻如下:
(1)Sattler?T,?Leibe?B,?Kobbelt?L.?Efficient?&?effective?prioritized?matching?for?large-scale?image-based?localization[J].?IEEE?transactions?on?pattern?analysis?and?machine?intelligence,?2016,?39(9):?1744-1756. (2)Sv?rm?L,?Enqvist?O,?Kahl?F,?et?al.?City-scale?localization?for?cameras?with?known?vertical?direction[J].?IEEE?transactions?on?pattern?analysis?and?machine?intelligence,?2016,?39(7):?1455-1461. (3)Dusmanu?M,?Miksik?O,?Sch?nberger?J?L,?et?al.?Cross-descriptor?visual?localization?and?mapping[C]//Proceedings?of?the?IEEE/CVF?International?Conference?on?Computer?Vision.?2021:?6058-6067. (4)Liu?L,?Li?H,?Dai?Y.?Efficient?global?2d-3d?matching?for?camera?localization?in?a?large-scale?3d?map[C]//Proceedings?of?the?IEEE?International?Conference?on?Computer?Vision.?2017:?2372-2381. (5)Sattler?T,?Leibe?B,?Kobbelt?L.?Improving?image-based?localization?by?active?correspondence?search[C]//Computer?Vision–ECCV?2012:?12th?European?Conference?on?Computer?Vision,?Florence,?Italy,?October?7-13,?2012,?Proceedings,?Part?I?12.?Springer?Berlin?Heidelberg,?2012:?752-765. (6)Taira?H,?Okutomi?M,?Sattler?T,?et?al.?InLoc:?Indoor?visual?localization?with?dense?matching?and?view?synthesis[C]//Proceedings?of?the?IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition.?2018:?7199-7209. (7)Camposeco?F,?Sattler?T,?Cohen?A,?et?al.?Toroidal?constraints?for?two-point?localization?under?high?outlier?ratios[C]//Proceedings?of?the?IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition.?2017:?4545-4553. (8)Geppert?M,?Larsson?V,?Speciale?P,?et?al.?Privacy?preserving?localization?and?mapping?from?uncalibrated?cameras[C]//Proceedings?of?the?IEEE/CVF?Conference?on?Computer?Vision?and?Pattern?Recognition.?2021:?1809-1819. (9)Yu?H,?Feng?Y,?Ye?W,?et?al.?Improving?Feature-based?Visual?Localization?by?Geometry-Aided?Matching[J].?arXiv?preprint?arXiv:2211.08712,?2022.
壓縮后的點云地圖:
由于點云地圖存在的限制,基于壓縮后的點云地圖進行定位的算法被廣泛研究,這類地圖的最終目標就是為定位服務,即在最大限度壓縮點云的同時精度不至于損失太多。
優點是:確實可以很大程度降低地圖的內存大小
缺點是:定位精度往往與壓縮量成負相關,很自然,越大的壓縮量意味著越低的定位精度。從根本上說并沒有擺脫點云地圖的缺陷。
相關算法參考文獻如下:
(1)Mera-Trujillo?M,?Smith?B,?Fragoso?V.?Efficient?scene?compression?for?visual-based?localization[C]//2020?International?Conference?on?3D?Vision?(3DV).?IEEE,?2020:?1-10. (2)Camposeco?F,?Cohen?A,?Pollefeys?M,?et?al.?Hybrid?scene?compression?for?visual?localization[C]//Proceedings?of?the?IEEE/CVF?Conference?on?Computer?Vision?and?Pattern?Recognition.?2019:?7653-7662. (3)Yang?L,?Shrestha?R,?Li?W,?et?al.?Scenesqueezer:?Learning?to?compress?scene?for?camera?relocalization[C]//Proceedings?of?the?IEEE/CVF?Conference?on?Computer?Vision?and?Pattern?Recognition.?2022:?8259-8268.
線地圖:
通過提取圖像中的線段構建3D線地圖來執行后續的定位,主要針對點云地圖存在的限制提出。線段在某些方面相比于點有諸多好處,比如在光照、環境變換下線段仍可以穩定檢測到,其次線段固有的方向及其空間結構信息對定位來說如果利用得當會很有幫助,此外,線地圖中3D線段相比于點云地圖來說會更少,所占用的內存空間更低。
優點是:輕量緊湊,富含空間中場景結構化信息。
缺點是:只能在人造環境,即建筑物線條豐富的地方執行,目前來看,其精度相比點云地圖有待提高。
相關算法參考文獻如下:
Micusik?B,?Wildenauer?H.?Descriptor?free?visual?indoor?localization?with?line?segments[C]//Proceedings?of?the?IEEE?conference?on?computer?vision?and?pattern?recognition.?2015:?3165-3173. Yoon?S,?Kim?A.?Line?as?a?visual?sentence:?context-aware?line?descriptor?for?visual?localization[J].?IEEE?Robotics?and?Automation?Letters,?2021,?6(4):?8726-8733.
平面圖:
場景的平面圖在我們日常生活中其實是很常見的,比如我們在逛商場時或者瀏覽某個景點時,在入口處都可以看到關于這個場景的二維的平面圖。
優點是:地圖足夠抽象,所以往往很輕很小,而且容易獲得。
缺點是:由于信息不夠豐富,定位精度往往不高。
相關算法參考文獻如下:LaLaLoc:?Latent?Layout?Localisation?in?Dynamic,?Unvisited?Environments(ICCV?2021)
神經網絡隱式表征的地圖:
此類指代基于深度學習的視覺定位算法,比如通過網絡直接回歸查詢圖像的相機姿態信息或者通過網絡密集預測查詢圖像像素的3D坐標,然后放在RANSAC-PNP loop中估計相機姿態。
優點是:通過網絡隱式表征場景三維結構,省去了顯式構建場景地圖的開銷。
缺點是:需要較高的硬件資源和大量的數據去訓練網絡,網絡泛化問題,精度相比于點云地圖還有差距。
相關算法參考文獻如下:
Kendall?A,?Grimes?M,?Cipolla?R.?Posenet:?A?convolutional?network?for?real-time?6-dof?camera?relocalization[C]//Proceedings?of?the?IEEE?international?conference?on?computer?vision.?2015:?2938-2946. Brachmann?E,?Rother?C.?Expert?sample?consensus?applied?to?camera?re-localization[C]//Proceedings?of?the?IEEE/CVF?International?Conference?on?Computer?Vision.?2019:?7525-7534. Brachmann?E,?Krull?A,?Nowozin?S,?et?al.?Dsac-differentiable?ransac?for?camera?localization[C]//Proceedings?of?the?IEEE?conference?on?computer?vision?and?pattern?recognition.?2017:?6684-6692. Huang?Z,?Zhou?H,?Li?Y,?et?al.?Vs-net:?Voting?with?segmentation?for?visual?localization[C]//Proceedings?of?the?IEEE/CVF?Conference?on?Computer?Vision?and?Pattern?Recognition.?2021:?6101-6111. Von?Stumberg?L,?Wenzel?P,?Yang?N,?et?al.?LM-Reloc:?Levenberg-Marquardt?based?direct?visual?relocalization[C]//2020?International?Conference?on?3D?Vision?(3DV).?IEEE,?2020:?968-977.
高精地圖:
這類地圖多用在汽車上,多在自動駕駛場景中見到。
優點是:因為偏向于商業應用,定位精度一般很高。
缺點是:制作地圖的成本很高,一般多由大公司搞了。
相關算法參考文獻如下:
Qin?T,?Chen?T,?Chen?Y,?et?al.?Avp-slam:?Semantic?visual?mapping?and?localization?for?autonomous?vehicles?in?the?parking?lot[C]//2020?IEEE/RSJ?International?Conference?on?Intelligent?Robots?and?Systems?(IROS).?IEEE,?2020:?5939-5945. Jeong?J,?Cho?Y,?Kim?A.?Hdmi-loc:?Exploiting?high?definition?map?image?for?precise?localization?via?bitwise?particle?filter[J].?IEEE?Robotics?and?Automation?Letters,?2020,?5(4):?6310-6317. Guo?X,?Hu?J,?Chen?J,?et?al.?Semantic?histogram?based?graph?matching?for?real-time?multi-robot?global?localization?in?large?scale?environment[J].?IEEE?Robotics?and?Automation?Letters,?2021,?6(4):?8349-8356. Zhang?C,?Liu?H,?Xie?Z,?et?al.?AVP-Loc:?Surround?view?localization?and?relocalization?based?on?HD?vector?map?for?automated?valet?parking[C]//2021?IEEE/RSJ?International?Conference?on?Intelligent?Robots?and?Systems?(IROS).?IEEE,?2021:?5552-5559.
2D導航地圖:
這種地圖就是我們平時導航用的地圖,比如百度地圖、高德地圖這些。
優點是:因為其地圖也足夠抽象,其地圖內存占用也很小,而且這種地圖形式更符合我們直觀上的理解。
缺點是:估計的自由度不高,一般為兩自由度。精度也有待提升。
相關算法參考文獻如下:
Sarlin?P?E,?DeTone?D,?Yang?T?Y,?et?al.?OrienterNet:?Visual?Localization?in?2D?Public?Maps?with?Neural?Matching[C]//Proceedings?of?the?IEEE/CVF?Conference?on?Computer?Vision?and?Pattern?Recognition.?2023:?21632-21642.
總結
根據以上的分類,用于視覺定位的地圖形式多種多樣,到底哪一種最優,或者還有其他新穎的地圖形式可以被使用?
我個人認為:用于視覺定位的地圖不用像點云地圖那樣冗余,即當地圖足夠抽象,而且對時間變化、環境變換又具有魯棒性,同時地圖中保留了足夠的幾何和語義信息可以與場景產生高質量的對應關系時,這種地圖對于視覺定位來說是最有用的。而且目前視覺定位很多是應用在移動機器人、汽車、消費電子產品上,這類應用更多注重算法的效率、地圖的輕量、魯棒性、實用性、泛化性這些。
而且,從目前頂會頂刊視覺定位相關的研究論文來看,大方向也是朝著這方面發展,即研究基于新穎地圖的視覺定位算法以適應各種生產生活需要。
審核編輯:黃飛
?
評論
查看更多