文/黃亞坤
編者按:計(jì)算機(jī)圖形與仿真技術(shù)的發(fā)展為人類帶來了眾多的沉浸式技術(shù)。虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)、混合現(xiàn)實(shí)(MR)等技術(shù)通過不同程度數(shù)字信息與現(xiàn)實(shí)環(huán)境的融合,為用戶帶來了全新體驗(yàn),而統(tǒng)括三者的擴(kuò)展現(xiàn)實(shí)(XR)更強(qiáng)調(diào)虛擬世界與現(xiàn)實(shí)世界的彌合,縮小人們、信息和體驗(yàn)之間的距離壁壘。LiveVideoStackCon 2023 上海站邀請了來自北京郵電大學(xué)的黃亞坤,為大家分享學(xué)術(shù)界關(guān)于云化XR和沉浸式全息交互技術(shù)的探索與思考?。
大家好,我是來自北京郵電大學(xué)的黃亞坤,目前主要在學(xué)術(shù)界從事研究工作。本次我將從更好地結(jié)合學(xué)術(shù)和工業(yè)界這一角度出發(fā)來與大家分享我們的探索與思考。
本次分享分為四方面:首先以囊括多種沉浸式技術(shù)為主旨談?wù)劤两絏R通信與交互現(xiàn)狀,然后介紹我們從2017年至今關(guān)于輕量化跨平臺WebXR技術(shù)的探索與研究進(jìn)展,接下來介紹全息XR通信與實(shí)時(shí)交互服務(wù),最后對云化XR的新需求與挑戰(zhàn)進(jìn)行總結(jié)。
-01-
沉浸式XR通信與交互現(xiàn)狀
XR包含了AR、VR和MR等沉浸式技術(shù),旨在打造真實(shí)、虛擬組合的數(shù)字化環(huán)境,實(shí)現(xiàn)沉浸感更深入的人機(jī)交互體驗(yàn)。
其中VR可能更為大眾所熟知(如當(dāng)下熱門的VR看房、看車),它通過計(jì)算機(jī)來模擬虛擬環(huán)境。目前多數(shù)用戶使用手機(jī)來體驗(yàn),而使用沉浸感更強(qiáng)的專業(yè)VR終端由于昂貴的成本問題在用戶間還沒有廣泛普及;
進(jìn)一步地,AR可將VR打造的虛擬世界和真實(shí)世界無縫融合,目前在工業(yè)界中的落地應(yīng)用廣泛使用率較高;
MR則是在融合AR、VR的基礎(chǔ)上,實(shí)現(xiàn)用戶與現(xiàn)實(shí)、虛擬世界間的深層次交互反饋。
最后,在常規(guī)XR概念的基礎(chǔ)上拓展引入了HR,與VR不同,它可以利用光干涉和衍射記錄進(jìn)行真實(shí)物體的再現(xiàn),還原真實(shí)的人物與環(huán)境。
以上圖表展示了XR的技術(shù)架構(gòu)、產(chǎn)業(yè)發(fā)展趨勢,以及XR業(yè)務(wù)的網(wǎng)絡(luò)需求。目前來看,XR還處于部分沉浸式體驗(yàn)階段,正朝著深度沉浸階段發(fā)展,主要表現(xiàn)為單眼觀看可達(dá)到2K分辨率,F(xiàn)OV處于100-120度范圍內(nèi)。
對于即將正式發(fā)售的Apple Vision Pro,我們也持續(xù)關(guān)注它對業(yè)界帶來的潛在前景與應(yīng)用價(jià)值。
我們對市場現(xiàn)有的一些XR設(shè)備進(jìn)行了體驗(yàn)分析并總結(jié)了幾方面問題。
首先是技術(shù)成熟度不夠:在畫面真實(shí)率,視場角,眩暈和遲滯感等方面有待提升。例如在工業(yè)場景下的三維大模型渲染服務(wù),終端上會出現(xiàn)明顯的卡頓、眩暈和遲滯感;
第二是用戶成本高:主流的XR頭顯對于大眾用戶來說價(jià)格過高;
第三是佩戴體驗(yàn)差:當(dāng)前的XR終端設(shè)備存在佩戴沉重,攜帶性差等體驗(yàn)問題;
第四是優(yōu)質(zhì)內(nèi)容源缺乏:高品質(zhì)的XR應(yīng)用稀缺,對用戶吸引力不夠;
第五是缺乏統(tǒng)一平臺:各大廠商當(dāng)前主要圍繞自身產(chǎn)品的生態(tài)圈進(jìn)行內(nèi)容開發(fā),難以建立有效共享和快速分發(fā)體驗(yàn)的統(tǒng)一平臺。
隨著5G的普及應(yīng)用,云化XR的部署與應(yīng)用已經(jīng)成為可能。
首先5G的網(wǎng)絡(luò)切片技術(shù)保證了應(yīng)用程序的部分帶寬、移動邊緣計(jì)算(MEC)減少了內(nèi)容匯聚,在節(jié)省帶寬的同時(shí)降低了時(shí)延,為XR云化部署奠定了技術(shù)基礎(chǔ)。
同時(shí),通過將XR的密集計(jì)算上云,有助于減輕終端設(shè)備的重量,提升佩戴體驗(yàn)和續(xù)航能力,云化XR更有助于提升多用戶共享體驗(yàn),降低單一用戶的體驗(yàn)限制;
最后,通過與5G技術(shù)相集合,智能手機(jī)有望成為承載云XR體驗(yàn)的終端設(shè)備,這有助于吸引更多的新用戶。
XR云化主要的優(yōu)勢體現(xiàn)在承載密集三維空間計(jì)算方面。大量的視覺、空間計(jì)算和密集的3D渲染給資源受限的XR終端設(shè)備帶來了極大的計(jì)算壓力,通過將這些密集的計(jì)算任務(wù)卸載上云后,能夠大幅降低終端的設(shè)備計(jì)算成本,進(jìn)而助力終端輕量化。
同時(shí)云端可借助Wi-Fi、5G等網(wǎng)絡(luò)技術(shù)將內(nèi)容以視頻流形式推向用戶,相對于傳統(tǒng)設(shè)備無需再連接終端的HDMI線,實(shí)現(xiàn)了終端無繩化、移動化。
最后,內(nèi)容云化也便于統(tǒng)一分發(fā)和版權(quán)管理。
但將云XR推向產(chǎn)業(yè)成熟,目前仍面臨技術(shù)成熟度、云網(wǎng)架構(gòu)升級、建設(shè)健康的生態(tài)環(huán)境、共贏的商業(yè)模式以及XR平臺與系統(tǒng)互通等問題,還需要進(jìn)一步探索。
-02-
輕量化WebXR探索與研究進(jìn)展
上圖展示了XR技術(shù)的發(fā)展簡史。從1998年AR首次應(yīng)用于電視直播到AR專用頭顯、移動終端、基于APP的AR游戲和基于Web的AR解決方案陸續(xù)出現(xiàn),再到OpenXR 1.0的發(fā)布,各大國內(nèi)廠商加入OpenXR聯(lián)盟,這些發(fā)展充分體現(xiàn)了XR追求移動化、輕量化和跨平臺標(biāo)準(zhǔn)化的發(fā)展趨勢。
Web具有天然的跨平臺性,并且有兼容高、普及廣的優(yōu)勢,因而基于輕量化移動Web的XR技術(shù)開始萌芽。
但實(shí)現(xiàn)WebXR并非易事。首先是瀏覽器極其有限的算力難以滿足AR密集的位姿計(jì)算需求,這也導(dǎo)致位姿估計(jì)與計(jì)算的時(shí)延差距大,畫面延遲較高,無法達(dá)到AR的高頻實(shí)時(shí)跟蹤要求。且三維模型的復(fù)雜度對Web的渲染能力提出很大考驗(yàn)。最后,國內(nèi)各大硬件廠商瀏覽器的內(nèi)核和開放權(quán)限參差不齊,導(dǎo)致傳統(tǒng)的方案難以跨平臺通用。
基于以上考慮,我們提出了基于云實(shí)現(xiàn)的WebXR解決方案。
接下來,我講介紹幾種云化WebXR方案的典型落地場景。如實(shí)現(xiàn)基于Web瀏覽器的AR導(dǎo)航、真實(shí)世界的三維目標(biāo)實(shí)時(shí)識別、跟蹤、渲染以及異構(gòu)跨終端的XR通信交互等。
在統(tǒng)籌考慮端云算力和時(shí)延要求的基礎(chǔ)上,我們針對AR室內(nèi)導(dǎo)航服務(wù)場景提出了端云協(xié)同方案。該方案的核心問題是如何精準(zhǔn)、高頻次獲取移動終端的實(shí)施6-DoF相機(jī)位姿?
目前基于Web的定位方案一般是提供局部定位,無法提供面向大規(guī)模地圖場景的全局定位,難以滿足導(dǎo)航場景路徑規(guī)劃等功能的需要;其次是終端側(cè)的行人航位推算(PDR)等方案的累計(jì)誤差較大,只能保持短距離精確定位;第三是傳輸實(shí)時(shí)視頻幀到云端求解無法滿足定位頻率要求。
因此,我們通過將終端側(cè)定位位姿和云端VPS定位對齊實(shí)現(xiàn)了“端側(cè)輕量化自主定位+云端精確輔助重定位”的方式。具體流程如上圖左下角所示,端側(cè)以云端的精確定位為基準(zhǔn)點(diǎn),通過PDR方案進(jìn)行自主實(shí)時(shí)定位,導(dǎo)航行進(jìn)過程中通過借助云端重定位來及時(shí)修正誤差。
我們從定位精度和開銷兩方面對該方案進(jìn)行了性能評估,可以看到最終呈現(xiàn)的效果較好。
但端云協(xié)同方案在網(wǎng)絡(luò)條件差、環(huán)境復(fù)雜等條件下難以發(fā)揮作用。我們考慮到用戶在導(dǎo)航時(shí)一般僅調(diào)用地圖的局部,因此通過將大地圖語義化,以物體為特征建立點(diǎn)云地圖,將其分塊并實(shí)時(shí)按需下發(fā)至端側(cè),使端側(cè)具備了獨(dú)立精確定位計(jì)算能力。
經(jīng)過測試,1M的點(diǎn)云數(shù)據(jù)即可覆蓋40-50平米的范圍,且通過預(yù)加載等方式可以讓用戶基本感受不到地圖下載的延遲。
針對局部語義地圖的技術(shù)架構(gòu)我們拓展了很多新的應(yīng)用場景,如上圖展示的BIM數(shù)字沙盤,可將BIM模型和效果投放到實(shí)景沙盤上。
在多人場景,通過移動Web動態(tài)加載語義點(diǎn)云地圖,使用局部點(diǎn)云定位,在點(diǎn)云世界坐標(biāo)下記錄模型信息即可通過P2P通信實(shí)現(xiàn)Web端的多人AR交互。
無論是端云協(xié)同還是局部語義地圖方案都很大程度上依賴云端預(yù)建地圖的準(zhǔn)確性,但它的時(shí)效性非常強(qiáng)。為了解決實(shí)時(shí)地圖更新的問題我們采用了眾包方案。
在眾包模式下,用戶的手機(jī)可以作為地圖重建采集設(shè)備,將拍攝的畫面反饋至云端進(jìn)行更新。
我們也采用了兩種在定位優(yōu)化手段。首先,傳統(tǒng)定位算法往往依賴低級幾何特征(特征點(diǎn))來建立視覺地圖,但在弱光或暗光場景下可能難以提取到足夠的特征點(diǎn),針對這類復(fù)雜場景我們通過引入語義化特征,利用高層級語義信息協(xié)助建立點(diǎn)云地圖,從而增強(qiáng)定位能力。
第二是針對樓梯間等特征點(diǎn)較少的場景改為使用線特征注冊圖像,使重建流程和定位能力更加穩(wěn)定。
以上是我們從通信角度對基于MEC+D2D融合的多用戶交互XR協(xié)同架構(gòu)提出的一些考慮。
上圖展示了我們從降低分發(fā)時(shí)延、同步時(shí)延角度提出的Web側(cè)多用戶XR協(xié)作框架。
-03-
全息XR通信與實(shí)時(shí)交互服務(wù)
全息容積視頻是一種捕捉3D空間的全息顯示技術(shù)。而實(shí)現(xiàn)3D全息視頻實(shí)時(shí)采集、傳輸與交互是沉浸式XR的關(guān)鍵挑戰(zhàn)。相對于視頻的捕捉采集,我們更多地關(guān)注它從傳輸、通信到最終在終端呈現(xiàn)的過程。
全息視頻實(shí)時(shí)采集、傳輸過程中的難點(diǎn)體現(xiàn)在以下幾方面:一是全息視頻的采集時(shí)間過長,歷經(jīng)多機(jī)位畫面融合、編碼、傳輸和解碼后嚴(yán)重降低了視頻幀率;第二是全息視頻的數(shù)據(jù)量過大,所需帶寬過高,現(xiàn)有網(wǎng)絡(luò)難以承載;第三是編解碼效果差,現(xiàn)有標(biāo)準(zhǔn)無法實(shí)現(xiàn)實(shí)時(shí)解碼。
在此基礎(chǔ)上,我們提出了基于AI的語義通信傳輸機(jī)制,通過提取、傳輸全息視頻的關(guān)鍵點(diǎn)云語義特征極大降低了傳輸數(shù)據(jù)量。終端側(cè)負(fù)責(zé)進(jìn)行容積視頻幀重建。
由于基于AI的點(diǎn)云編解碼方案對計(jì)算和存儲的要求較高,資源有限的終端設(shè)備難以實(shí)現(xiàn)實(shí)時(shí)解碼交互。因而我們提出了面向任務(wù)的輕量化傳輸機(jī)制,采用興趣感知選擇技術(shù)提取局部用戶感興趣的內(nèi)容,同時(shí)采用剪枝、量化等網(wǎng)絡(luò)輕量化技術(shù),極大地降低了AI傳輸模型的參數(shù)和推理速度,提高了解碼效率。
除了單純的3D全息點(diǎn)云實(shí)時(shí)交互外,我們也在思考面對混合模態(tài)視頻XR業(yè)務(wù)場景的解決方案,但現(xiàn)有視頻流自適應(yīng)傳輸方案都是針對單模態(tài)業(yè)務(wù)的優(yōu)化。
我們提出了一種面向多模態(tài)業(yè)務(wù)的云渲染自適應(yīng)視頻流框架,對于包含傳統(tǒng)2D、360度視頻,全息點(diǎn)云視頻的多模態(tài)業(yè)務(wù),通過云渲染的轉(zhuǎn)碼方式有效降低了移動終端的帶寬和解碼壓力。
我們采用多智能體強(qiáng)化學(xué)習(xí)的方式實(shí)現(xiàn)多維度內(nèi)容ABR控制,從而最大程度保證不同用戶的QoE。
基于未來網(wǎng)絡(luò)試驗(yàn)設(shè)施(CENI)提供的大帶寬、低時(shí)延等特性需求,從創(chuàng)造承載高清全息XR的網(wǎng)絡(luò)條件考慮,我們擬搭建出一套基于CENI的設(shè)施,可支持超遠(yuǎn)距離多人交互的實(shí)時(shí)全息通信試驗(yàn)系統(tǒng)。
-04-
云化XR的新需求和新挑戰(zhàn)
總體來看,未來云化XR的發(fā)展將面臨網(wǎng)絡(luò)能力方面的需求和挑戰(zhàn)。目前多個3GPP工作組也在針對5G低時(shí)延云游戲、AR/VR、多媒體編解碼和XR業(yè)務(wù)QoE等方向展開研究。
同時(shí)云化XR仍面臨幾點(diǎn)技術(shù)挑戰(zhàn)。
一是在云網(wǎng)架構(gòu)上,復(fù)雜場景下的圖形渲染、編碼和計(jì)算部署在云端也為云側(cè)帶來了很大壓力。那么未來面對海量用戶,云側(cè)要滿足確定性渲染計(jì)算能力及處理時(shí)延,網(wǎng)絡(luò)需要滿足確定性帶寬及傳輸時(shí)延;
二是在網(wǎng)絡(luò)側(cè),滿足XR多模態(tài)業(yè)務(wù)不同場景的差異化和安全隔離需求需要定制化網(wǎng)絡(luò)切片和安全隔離;
三是在邊側(cè),云XR業(yè)務(wù)需要消耗GPU資源來實(shí)現(xiàn)實(shí)時(shí)圖形渲染、并行計(jì)算等能力。邊側(cè)IaaS層成本主要是GPU成本,通過GPU虛擬化提升GPU使用效率是拓展云化XR業(yè)務(wù)的重大挑戰(zhàn);
四是在云側(cè),XR的超高分辨率畫質(zhì)要求,巨大的數(shù)據(jù)量給編解碼帶來的挑戰(zhàn),尤其是強(qiáng)交互云XR直播與交互業(yè)務(wù)需要支持實(shí)時(shí)轉(zhuǎn)碼,基于通用視頻的編解碼技術(shù)效率相對較低;
五是在終端側(cè),3D體驗(yàn)的終端價(jià)格仍然昂貴,內(nèi)容質(zhì)量低,跨平臺性差。
最后,由于傳統(tǒng)的QoE指標(biāo)評價(jià)通常只針對單一的業(yè)務(wù)類型,且業(yè)務(wù)之間的耦合度低,已經(jīng)無法適應(yīng)云化XR的業(yè)務(wù)場景,我們目前正在推進(jìn)建立兼容云XR的質(zhì)量評估體系。
編輯:黃飛
?
評論
查看更多