基于MPEG-DASH SRD的自适应360 VR视频流外文翻译资料

 2022-11-22 10:34:16

英语原文共 2 页,剩余内容已隐藏,支付完成后下载完整资料


基于MPEG-DASH SRD的自适应360 VR视频流

Mohammad Hosseini, Viswanathan Swaminathan

University of Illinois at Urbana-Champaign (UIUC) dagger;Adobe Research, San Jose, USA Email: shossen2@illinois.edu, vishy@adobe.com

摘要:我们将演示了一个基于MPEG-DASH SRD的自适应带宽而且极具效率的360 VR视频流系统。 我们将MPEG-DASH SRD扩展到360度VR视频的3D空间,并展示动态视图感知自适应技术,以解决将360度VR视频传输到无线VR头戴式显示器对高带宽的需求。我们在空间上将底层的3D网格划分为多个3D子网格,并且构建了一个被称为六面体球体的高效3D几何网格,因而能够方便地将360度VR视频分布在一个3D的空间中。然后,我们在编码和打包的时候将360度的视频在空间上划分为许多个图形区块,使用了MPEG-DASH SRD来描述三维空间中图形区块的空间关系,并优先考虑对视域(FoV)中的图形区块地视图识别进行适配。我们的初步评估结果显示,与未采用优化措施的基础脚本的情景相比,我们的传输方式可以节省高达百分之72的360 VR视频流所需的带宽,而且对质量的负面影响较小。我们使用实时无线HMD平台和多个360度VR视频流来展示了我们的演示,并且以此表明我们的改进在提供高品质身临其境的体验的同时大大降低了视频传输所需的总带宽。我们的方法还可以进一步提高给定带宽下的360度VR视频的整体的质量,实际上,还会支持8K和更高的VR视频分辨率。

1 引言

360 VR视频是使人身临其境的映射到3D几何图形中的球形视频,用户可以在回放过程中使用VR头戴式显示器(HMD)进行环绕观看。不幸的是,360 VR视频所需要的带宽非常的高,尤其是4K的视频分辨率被广泛视为当前HMD功能所需要的最低分辨率,甚至会采用8K或更高的分辨率。因此,如何有效地将这些容量庞大的360度VR视频有效地传输到带宽受限的无线VR头戴式显示设备,并且在高比特率的要求下还能够以可接受的质量水平进行传输是研究这个问题的关键所在。在这项工作中,我们受到具有8K和12K分辨率的360度VR视频应用程序以及如此丰富的多媒体系统所具有的数据速率问题的激励。我们将MPEG-DASH SRD扩展到3D VR环境,并展示如何利用用户视频接口、空间分区、和使用分而治之的方法进行流优先化之间的语义链接来实现我们想要的功能。在拍摄360度视频的时候,我们在编码和打包时将它们在空间上划分为多个视频图形区块,这些图形区块会在我们构建的被称为六面体球体的底层的3D几何网格上进行高效的纹理化处理。然后,我们使用MPEG-DASH SRD来描述三维空间中图形区块之间的空间关系,并开发出一个优先视图感知算法来克服很高的带宽需求。我们使用实时无线HMD平台和多个360度VR视频流来展示了我们的演示,并且以此表明我们的改进在提供高品质身临其境的体验的同时大大降低了视频传输所需的总带宽。我们的方法还可以进一步提高给定带宽下的360度VR视频的整体的质量,实际上,还会支持8K和更高的VR视频分辨率。总之,360 VR视频是一个目前来说比较先进的技术,在相应设备的辅助之下,他可以帮助我们观看立体的身临其境的360 VR视频,而在形成VR 视频前他只是平面图片而已。

2 实现方法

一般来说,在观看VR头戴式显示器上的360度视频时,用户在同一时间只能观看360度视频的一小部分区域。该小部分区域相当于3D球形网格上面的特定的限制的区域,在空间上此区域与原始内容的相应部分相关联。例如,Samsung Gear VR 头戴式显示器提供了一个96度的FoV,这意味着它只能在水平上覆盖整个360度宽度内容的四分之一内容。为了减少360度VR视频的带宽需求,我们使用了优先视图识别技术,并以最高分辨率在视频接口内以流的形式传输视频数据,使其达到或接近HMD的原始分辨率。为了实现这一点,我们的算法由两个部分组成。首先,我们将360度视频在空间上划分为很多个图形区块。我们将MPEG-DASH SRD的功能扩展到3D空间,并为每个视频的拼贴块定义一个参考的空间,这些空间对应于包含整个原始360度视频的矩形区域。其次,我们将底层的3D几何空间划分为多个部分,每部分代表着具有唯一标识符的原始3D网格的子网格,这个操作将分为两步进行。在第一步中,我们通过球形三维重建中使用的切片和叠层的概念,将球体的编程分成3个主要部分,其中包括顶帽部分,中间身体部分和底帽部分。考虑到VR头戴式显示器的垂直FoV的设置,中间身体将会覆盖2beta;o度。在第二步中,我们将进一步地将中间主体部分分成四个子网格,根据给定头戴式显示器的水平FoV设置,每个子网格覆盖整个360度宽屏幕的alpha;o(= 90度)。通过这个操作,我们的投影将会产生六个3D子球形网格的组合,我们称之为六面体3D网格。最后,我们将为三维空间上的网格片的空间的定位定义一个映射机制,使得每个网格片在其相应的三维的网格片段上能够被纹理化。下图1展示了我们的六面体的3D几何示意图。图2显示了根据我们的六面体球体的几何图形,我们的平铺过程是如何应用在针对示例的360度视频帧上。为了启用视图感知功能,我们遵循了三个步骤来为每个六面体球形3D网格线段创建专门设置了单位四元数的有效范围。首先,我们将欧拉角转换为用于VR设备定位跟踪的单位四元数表示,并且计算与来自我们的四元数的归一化方向矢量所对应的数组。然后我们将这些值组合在一起来计算六面体球内部的三维特定四元数表示的范围。通过定义每个3D网格线段的边界,我们可以确定哪些3D线段和相应的切片与用户的视口相交,并在每个帧处实现视口跟踪。通过视口跟踪,我们将实现优先视图识别适配,并向用户FoV中的瓦片动态提供更高比特率的内容,并将低质量内容分配到用户即时FoV外的区域。

图1 生成的六面体球体的视觉概览

图2 根据我们的六面体3D几何图形的六个3D网格,示例360视频(空手道)的各种图形区块。

图3 使用我们的改编的流式传输和没有适应的平铺流式传输不同的360 VR视频的带宽节省的比较

3 总结

为了评估我们的工作,我们使用搭载三星Galaxy S7智能手机的Samsung Gear VR HMD作为我们测试的目标VR平台。我们使用Oculus Mobile SDK 1.0.3与Android SDK API 24共同开发基于MPEG-DASH SRD的360 VR视频流应用原型。我们使用我们开发的原型来应用改编和运行实验。我们的VR平台提供的总分辨率为2560x1440(每眼1280x1440),最大帧速率为60 FPS,水平FoV为96度。我们将360度VR视频原型的垂直FoV设置为90度。我们准备了5个不同的360度视频,其中包含了在Youtube上公开发布的各种分辨率作为测试序列,以便应用我们的改编。我们将所有视频片段编码为四种不同的表示(从最高到最低分辨率的REP1到REP4),并使用MPEG-DASH SRD来描述我们的平铺。我们比较了使用我们的改编时的相对带宽使用情况与未应用自适应的基准情况(360 VR视频平铺;没有视图意识存在,并且所有切片以最高表示REP1进行流式传输)。图3演示了我们所有基准测试中的一小部分的实验的结果,在其中比率归一化。我们的研究结果表明,与未采用我们的适应方法的基准情况相比,我们的改进可以显著的节省带宽的使用率,减少的带宽使用率最高可达72%。图4显示了Waldo实验的两个示例屏幕截图。尽可能的最高的分辨率显示(REP1分辨率为960x1920)被传送到主前部瓦片,但在图4(顶部)中,最低的分辨率显示被传送到右侧的外围瓦片(REP4-分辨率为240x480),而在图4(底部),右侧的外围磁贴具有分配给它的第二高的分辨率显示(REP2-分辨率为720x1440)。红色限制区域指定了较低质量的周边磁贴的大致面积。在我们的演示中,我们发现,即使是不在立即视口内的外围磁贴上的最低质量显示,也会从用户的角度导致轻微的视觉变化,有时甚至无法察觉,同时仍会保持主视觉口的原始质量,以确保令人满意的用户体验。总的来说,考虑到使用我们的改编的传输方法所实现的显着的带宽节省,本人相信许多360 VR视频用户在其有限的带宽下会接受这种微小的视觉改变。更多技术的细节在我们的其他出版物中会有介绍[1]。

图4 样本的360度VR视频中的特定帧与具有最低分辨率的外围的瓦片的视觉比较。 (顶部)REP4,分辨率为240x480。 (底部)REP2,分辨率为720x1440。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[22868],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版