文/黄亚坤
编者按:计算机图形与仿真技术的发展为人类带来了众多的沉浸式技术。虚拟现实(VR)、增强现实(AR)、混合现实(MR)等技术通过不同程度数字信息与现实环境的融合,为用户带来了全新体验,而统括三者的扩展现实(XR)更强调虚拟世界与现实世界的弥合,缩小人们、信息和体验之间的距离壁垒。LiveVideoStackCon 2023 上海站邀请了来自北京邮电大学的黄亚坤,为大家分享学术界关于云化XR和沉浸式全息交互技术的探索与思考 。
大家好,我是来自北京邮电大学的黄亚坤,目前主要在学术界从事研究工作。本次我将从更好地结合学术和工业界这一角度出发来与大家分享我们的探索与思考。
本次分享分为四方面:首先以囊括多种沉浸式技术为主旨谈谈沉浸式XR通信与交互现状,然后介绍我们从2017年至今关于轻量化跨平台WebXR技术的探索与研究进展,接下来介绍全息XR通信与实时交互服务,最后对云化XR的新需求与挑战进行总结。
-01-
沉浸式XR通信与交互现状
XR包含了AR、VR和MR等沉浸式技术,旨在打造真实、虚拟组合的数字化环境,实现沉浸感更深入的人机交互体验。
其中VR可能更为大众所熟知(如当下热门的VR看房、看车),它通过计算机来模拟虚拟环境。目前多数用户使用手机来体验,而使用沉浸感更强的专业VR终端由于昂贵的成本问题在用户间还没有广泛普及;
进一步地,AR可将VR打造的虚拟世界和真实世界无缝融合,目前在工业界中的落地应用广泛使用率较高;
MR则是在融合AR、VR的基础上,实现用户与现实、虚拟世界间的深层次交互反馈。
最后,在常规XR概念的基础上拓展引入了HR,与VR不同,它可以利用光干涉和衍射记录进行真实物体的再现,还原真实的人物与环境。
以上图表展示了XR的技术架构、产业发展趋势,以及XR业务的网络需求。目前来看,XR还处于部分沉浸式体验阶段,正朝着深度沉浸阶段发展,主要表现为单眼观看可达到2K分辨率,FOV处于100-120度范围内。
对于即将正式发售的Apple Vision Pro,我们也持续关注它对业界带来的潜在前景与应用价值。
我们对市场现有的一些XR设备进行了体验分析并总结了几方面问题。
首先是技术成熟度不够:在画面真实率,视场角,眩晕和迟滞感等方面有待提升。例如在工业场景下的三维大模型渲染服务,终端上会出现明显的卡顿、眩晕和迟滞感;
第二是用户成本高:主流的XR头显对于大众用户来说价格过高;
第三是佩戴体验差:当前的XR终端设备存在佩戴沉重,携带性差等体验问题;
第四是优质内容源缺乏:高品质的XR应用稀缺,对用户吸引力不够;
第五是缺乏统一平台:各大厂商当前主要围绕自身产品的生态圈进行内容开发,难以建立有效共享和快速分发体验的统一平台。
随着5G的普及应用,云化XR的部署与应用已经成为可能。
首先5G的网络切片技术保证了应用程序的部分带宽、移动边缘计算(MEC)减少了内容汇聚,在节省带宽的同时降低了时延,为XR云化部署奠定了技术基础。
同时,通过将XR的密集计算上云,有助于减轻终端设备的重量,提升佩戴体验和续航能力,云化XR更有助于提升多用户共享体验,降低单一用户的体验限制;
最后,通过与5G技术相集合,智能手机有望成为承载云XR体验的终端设备,这有助于吸引更多的新用户。
XR云化主要的优势体现在承载密集三维空间计算方面。大量的视觉、空间计算和密集的3D渲染给资源受限的XR终端设备带来了极大的计算压力,通过将这些密集的计算任务卸载上云后,能够大幅降低终端的设备计算成本,进而助力终端轻量化。
同时云端可借助Wi-Fi、5G等网络技术将内容以视频流形式推向用户,相对于传统设备无需再连接终端的HDMI线,实现了终端无绳化、移动化。
最后,内容云化也便于统一分发和版权管理。
但将云XR推向产业成熟,目前仍面临技术成熟度、云网架构升级、建设健康的生态环境、共赢的商业模式以及XR平台与系统互通等问题,还需要进一步探索。
-02-
轻量化WebXR探索与研究进展
上图展示了XR技术的发展简史。从1998年AR首次应用于电视直播到AR专用头显、移动终端、基于APP的AR游戏和基于Web的AR解决方案陆续出现,再到OpenXR 1.0的发布,各大国内厂商加入OpenXR联盟,这些发展充分体现了XR追求移动化、轻量化和跨平台标准化的发展趋势。
Web具有天然的跨平台性,并且有兼容高、普及广的优势,因而基于轻量化移动Web的XR技术开始萌芽。
但实现WebXR并非易事。首先是浏览器极其有限的算力难以满足AR密集的位姿计算需求,这也导致位姿估计与计算的时延差距大,画面延迟较高,无法达到AR的高频实时跟踪要求。且三维模型的复杂度对Web的渲染能力提出很大考验。最后,国内各大硬件厂商浏览器的内核和开放权限参差不齐,导致传统的方案难以跨平台通用。
基于以上考虑,我们提出了基于云实现的WebXR解决方案。
接下来,我讲介绍几种云化WebXR方案的典型落地场景。如实现基于Web浏览器的AR导航、真实世界的三维目标实时识别、跟踪、渲染以及异构跨终端的XR通信交互等。
在统筹考虑端云算力和时延要求的基础上,我们针对AR室内导航服务场景提出了端云协同方案。该方案的核心问题是如何精准、高频次获取移动终端的实施6-DoF相机位姿?
目前基于Web的定位方案一般是提供局部定位,无法提供面向大规模地图场景的全局定位,难以满足导航场景路径规划等功能的需要;其次是终端侧的行人航位推算(PDR)等方案的累计误差较大,只能保持短距离精确定位;第三是传输实时视频帧到云端求解无法满足定位频率要求。
因此,我们通过将终端侧定位位姿和云端VPS定位对齐实现了“端侧轻量化自主定位+云端精确辅助重定位”的方式。具体流程如上图左下角所示,端侧以云端的精确定位为基准点,通过PDR方案进行自主实时定位,导航行进过程中通过借助云端重定位来及时修正误差。
我们从定位精度和开销两方面对该方案进行了性能评估,可以看到最终呈现的效果较好。
但端云协同方案在网络条件差、环境复杂等条件下难以发挥作用。我们考虑到用户在导航时一般仅调用地图的局部,因此通过将大地图语义化,以物体为特征建立点云地图,将其分块并实时按需下发至端侧,使端侧具备了独立精确定位计算能力。
经过测试,1M的点云数据即可覆盖40-50平米的范围,且通过预加载等方式可以让用户基本感受不到地图下载的延迟。
针对局部语义地图的技术架构我们拓展了很多新的应用场景,如上图展示的BIM数字沙盘,可将BIM模型和效果投放到实景沙盘上。
在多人场景,通过移动Web动态加载语义点云地图,使用局部点云定位,在点云世界坐标下记录模型信息即可通过P2P通信实现Web端的多人AR交互。
无论是端云协同还是局部语义地图方案都很大程度上依赖云端预建地图的准确性,但它的时效性非常强。为了解决实时地图更新的问题我们采用了众包方案。
在众包模式下,用户的手机可以作为地图重建采集设备,将拍摄的画面反馈至云端进行更新。
我们也采用了两种在定位优化手段。首先,传统定位算法往往依赖低级几何特征(特征点)来建立视觉地图,但在弱光或暗光场景下可能难以提取到足够的特征点,针对这类复杂场景我们通过引入语义化特征,利用高层级语义信息协助建立点云地图,从而增强定位能力。
第二是针对楼梯间等特征点较少的场景改为使用线特征注册图像,使重建流程和定位能力更加稳定。
以上是我们从通信角度对基于MEC+D2D融合的多用户交互XR协同架构提出的一些考虑。
上图展示了我们从降低分发时延、同步时延角度提出的Web侧多用户XR协作框架。
-03-
全息XR通信与实时交互服务
全息容积视频是一种捕捉3D空间的全息显示技术。而实现3D全息视频实时采集、传输与交互是沉浸式XR的关键挑战。相对于视频的捕捉采集,我们更多地关注它从传输、通信到最终在终端呈现的过程。
全息视频实时采集、传输过程中的难点体现在以下几方面:一是全息视频的采集时间过长,历经多机位画面融合、编码、传输和解码后严重降低了视频帧率;第二是全息视频的数据量过大,所需带宽过高,现有网络难以承载;第三是编解码效果差,现有标准无法实现实时解码。
在此基础上,我们提出了基于AI的语义通信传输机制,通过提取、传输全息视频的关键点云语义特征极大降低了传输数据量。终端侧负责进行容积视频帧重建。
由于基于AI的点云编解码方案对计算和存储的要求较高,资源有限的终端设备难以实现实时解码交互。因而我们提出了面向任务的轻量化传输机制,采用兴趣感知选择技术提取局部用户感兴趣的内容,同时采用剪枝、量化等网络轻量化技术,极大地降低了AI传输模型的参数和推理速度,提高了解码效率。
除了单纯的3D全息点云实时交互外,我们也在思考面对混合模态视频XR业务场景的解决方案,但现有视频流自适应传输方案都是针对单模态业务的优化。
我们提出了一种面向多模态业务的云渲染自适应视频流框架,对于包含传统2D、360度视频,全息点云视频的多模态业务,通过云渲染的转码方式有效降低了移动终端的带宽和解码压力。
我们采用多智能体强化学习的方式实现多维度内容ABR控制,从而最大程度保证不同用户的QoE。
基于未来网络试验设施(CENI)提供的大带宽、低时延等特性需求,从创造承载高清全息XR的网络条件考虑,我们拟搭建出一套基于CENI的设施,可支持超远距离多人交互的实时全息通信试验系统。
-04-
云化XR的新需求和新挑战
总体来看,未来云化XR的发展将面临网络能力方面的需求和挑战。目前多个3GPP工作组也在针对5G低时延云游戏、AR/VR、多媒体编解码和XR业务QoE等方向展开研究。
同时云化XR仍面临几点技术挑战。
一是在云网架构上,复杂场景下的图形渲染、编码和计算部署在云端也为云侧带来了很大压力。那么未来面对海量用户,云侧要满足确定性渲染计算能力及处理时延,网络需要满足确定性带宽及传输时延;
二是在网络侧,满足XR多模态业务不同场景的差异化和安全隔离需求需要定制化网络切片和安全隔离;
三是在边侧,云XR业务需要消耗GPU资源来实现实时图形渲染、并行计算等能力。边侧IaaS层成本主要是GPU成本,通过GPU虚拟化提升GPU使用效率是拓展云化XR业务的重大挑战;
四是在云侧,XR的超高分辨率画质要求,巨大的数据量给编解码带来的挑战,尤其是强交互云XR直播与交互业务需要支持实时转码,基于通用视频的编解码技术效率相对较低;
五是在终端侧,3D体验的终端价格仍然昂贵,内容质量低,跨平台性差。
最后,由于传统的QoE指标评价通常只针对单一的业务类型,且业务之间的耦合度低,已经无法适应云化XR的业务场景,我们目前正在推进建立兼容云XR的质量评估体系。