一种基于八叉树的点云压缩框架外文翻译资料

 2023-03-14 18:49:29

一种基于八叉树的点云压缩框架

摘 要

在本文中,我们提出了一个名为 VoxelContext-Net的两阶段深度学习框架,用于静态和动态点云压缩。方法综合了基于八叉树和基于体素的方法的优点,利用体素上下文对八叉树结构数据进行压缩。具体地说,我们首先提取局部体素表示,对构造的八叉树中每个节点的空间相邻上下文信息进行编码。然后,在熵编码阶段,我们提出了一种基于体素和文本的深度熵模型,以无损的方式压缩非叶节点的符号。此外,对于动态点云压缩,我们还引入了来自时间邻近点云的局部体素表示来利用时间依赖性。更重要的是,为了减轻八叉树构造过程中的失真,我们提出了一种基于体素上下文的三维坐标细化方法,在解码器侧生成更精确的重构点云,适用于静态和动态点云压缩。在静态和动态点云基准数据集如(ScanNet和Semantic KITTI)上的综合实验清楚地证明了我们新提出的体素VoxelContext-Net用于三维点云几何压缩的有效性。

关键词:八叉树,深度学习,点云

1.介绍
由于激光雷达等 3D 传感器的快速增长,为广泛的应用(如自动驾驶),压缩大量3D点云数据的研究兴趣日益浓厚。与图像和视频压缩[35,32,4,37,31,19]相比,从点云中压缩一组无秩序的三维点是一项更具挑战性的任务。

图 1。基于八叉树结构数据学习熵模型的两种上下文生成方法。在[15] 中使用的(a)树-节点上下文。在我们的方法中使用了(b)局部体素上下文。

最近,人们开发了几种用于点云压缩的深度学习方法。例如,Wang等人。[36]将点云数据转换为体素表示,以捕获空间依赖性。然后利用已有的图像压缩方法[2]进行点云压缩。最近的其他作品[39]和[16]通过现有的主干网络(例如,PointNet/PointNet [25,26])进行特征编码,直接压缩原始的点云数据。这些基于体素或基于点的方法可以利用现有的图像压缩或点云分析技术。然而,基于体素的方法忽略了点云的稀疏性特征,因此存在相对较高的计算复杂度[36],而基于点的方法在处理大的点云数据[39]时效率较低。在[15],Huang 等人。利用八叉树来组织点云数据,并提出了一个熵模型来利用多个父节点与每个子节点之间的依赖关系(见图 1(a))。虽然他们的方法继承了有效处理八叉树结构点云数据的好处,但不幸的是,在他们基于八叉树的熵模型[15]中,在相同深度水平的相邻八叉树节点之间的强依赖性被忽略了。此外,在将原始点云转换为八叉树结构化数据后,还引入了畸变,进一步降低了压缩性能。此外,他们的方法仅设计用于静态点云压缩,这可能会限制动态点云压缩的性能。

为了解决这些问题,我们提出了一种新的基于学习的点云压缩方法,即利用基于八叉树的框架中的体素上下文。我们的方法利用了基于八叉树方法的高效数据组织能力和基于体素的方法的空间建模能力,可以应用于静态和动态点云几何压缩。具体来说,输入点云首先使用八叉树结构进行组织,其中每个非叶节点的符号代表其 8 个子节点的占用状态。在熵编码阶段,我们提出了一种新的基于学习的熵模型,以无损的方式压缩这些符号。为了有效地为熵模型生成上下文信息,我们利用每个节点的局部二进制体素表示,其中体素表示的条目指示在同一深度级别上存在相邻节点(见图 1(b))。此外,为了减少动态点云压缩的时间冗余,我们还包括了来自之前和后续点云的共域体素表示,以生成更丰富的上下文信息。在重构阶段,我们进一步提出了一种基于解码器侧局部体素表示的坐标细化方法,以在静态和动态点云中为每个叶节点生成更精确的三维坐标。

我们在大规模的三维静态和动态点云数据集(如ScanNet[7]和Semantic KITTI[11,3])上评估了我们新提出的方法的性能。综合实验结果表明,该方法同时优于手工制作的点云压缩方法和基于学习的点云压缩方法。

我们工作的贡献如下:

  • 我们利用基于体素的方法和基于八叉树的方案,在深度熵模型中引入局部体素上下文,以更好地压缩八叉树结构地数据。我们的方法可以应用于静态和动态点云压缩方法。
  • 我们开发了一个基于体素上下文的坐标细化模块,以产生解码器侧叶节点的精确坐标。
  • 我们的简单而有效的方法在几个大尺度数据集上实现了最先进的压缩性能,包括静态和动态点云几何压缩性能。
  1. 相关工作
    2.1.传统点云压缩方法

在过去的几年中,提出了一些点云压缩方法[27,12,29,17,28,8,9],其中大多数是基于树表示。例如,MPEG 小组开发了一种针对静态点云的标准点云压缩方法[29,13,13]G-PCC(基于几何的点云压缩),其中包括一种基于八叉树结构的点云压缩方法。然而,它们都是基于手工制作的技术的,因此不能通过使用大规模数据以端到端方式进行优化。

此外,虽然已经提出了一些基于学习的图像和视频压缩方法[1,2,23,20,38,21,14],但使用标准的 CNN 操作来压缩由稀疏的无有序三维点组成的点云仍然是一项非试验任务。

2.2.点云压缩的深度学习

以点云数据作为输入,Yan等人。[39]利用点网络建立了自动编码网络,并利用熵编码模型进一步压缩。这些基于点的方法[39,16]可能会遭受巨大的内存使用问题和高昂得到计算成本。Wang等人,[36]扩展了现有的图像压缩方法[1],用于体素化的点云压缩。不幸的是,他们的方法忽略了点云的稀疏性特征,因此与基于八叉树的方法相比,计算复杂度相对较高。

最近,人们提出了一种基于八叉树的八度压缩[15]方法。虽然八次压缩方法[15]避免了与高内存使用和较慢的编码/解码速度相关的问题,但他们的方法仍然存在以下缺点。首先,他们只利用来自其祖先节点的上下文信息(如图 1(a)所示)来预测熵模型中的概率模型,熵模型忽略了同一深度的空间相邻节点之间的强先验信息。此外,他们的工作没有考虑到八叉树构造过程中引入的失真,他们的方法仅设计用于静态点云压缩。虽然有一个用于动态点云压缩的并发工作[5],但它遵循了[15]的现有框架,因此受到类似的限制。

与这些工作[39,16,36,15,5,34]相比,我们提出在深度熵模型中使用局部体素表示来利用相邻节点之间的上下文信息,我们的工作还改进了解码器侧的三维坐标,以获得更好的重建结果。此外,我们进一步扩展了我们的方法,进一步利用来自邻居帧的局部上下文表示来进行动态点云压缩。

3.方法学
3.1.概述
所提出的点云压缩方法的总体架构如图 2所示。在本节中,我们首先以静态点云压缩为例,说明我们提出的方法,然后介绍如何扩展所提出的动态点云压缩方法。

图 2。我们提出的静态点云压缩方法的总体架构。利用提出的深度熵模型对八叉树中非叶节点的符号进行无损压缩,同时使用坐标细化模块在解码器端预测更精确的坐标。

具体来说,在第一阶段,我们使用八叉树结构组织输入静态点云,我们的方法目的是对这些符号进行编码。为了改进压缩方法,提出了一种基于体素上下文的深度熵模型来准确预测这些符号的概率分布。此外,为了补偿八叉树构造过程中的失真,提出了一种基于局部体素上下文的坐标细化模块,以在解码器侧生成更准确的重构点云。

3.2.八叉树构造

在图 3中,我们提供了一个简单的示例来说明八叉树的构造过程。具体来说,八叉树可以从任何三维点云构造,首先将三维空间划分为 8 个相同大小的立方体,然后以相同的方式递归地将每个立方体划分为非空立方体,直到达到最大深度级别。每个节点的三维坐标表示立方体中心。对于每个非叶节点,使用一个 8 位符号来表示其 8 个子节点的占用状态,每个位对应一个特定的子节点。

在八叉树构造过程中,重建点云的质量取决于八叉树结构中的最大深度水平。因此,当前叶节点的坐标(即立方体中心)的坐标并不总是与原始点云中对应点的原始三维坐标一致。例如,一个输入点r的坐标为(0.6, 0.7, 0.7),而对应的叶节点 n 的坐标被量化为(0.625, 0.625, 0.625),因此在八叉树构造过程中引入了不可避免的失真。在本工作中,我们将无损压缩八叉树节点的符号,并恢复解码器侧的精确解码坐标。

图 3。一个构造八叉树和提取局部体素上下文表示的简单示例。(a) 原始输入点云。(b)对应的八叉树。(c)输入点云的体素表示,其深 度级别为 2。(d)详细的二进制体素表示。

3.3.八叉树中的局部体素上下文

在八叉树结构中,父节点将生成 8 个子节点,相当于沿x轴、y轴和z轴将三维空间平分。因此,分区在八叉树中第k个深度级别的原始空间的长度相当于分别沿x轴、y轴和z轴将相应的3D空间分割2k次。然后我们根据每个立方体中点的存在性产生一个形状为 2k * 2k * 2k 的二进制体素表示。这里,我们假设以节点ni为中心的相应局部体素表示为Viisin; RMtimes;Mtimes;M,其中 M 表示局部体素表示的大小。在我们的方法中,Vi将作为强的先验信息使用,以提高压缩性能。

在图 3(c)中,紫色区域表示当前结点n的局部体素上下文,局部体素表示详细的二进制值如图 3(d)。所示在图 3(a)中,我们还提供了三维空间中相应局部区域的三维坐标范围(见紫色虚线)。需要注意的是,当前结点n的局部体素上下文Vi表示相邻节点在同一深度水平上的分布信息。相比之下,之前的方法[15]只利用来自其祖先结点的信息,而没有考虑强空间邻近先验信息(见图 1(a))。

3.4.我们的深度熵模型

3.4.1 配方

设s = [s1, hellip;, si, hellip;]表示来自所有非叶八叉树节点的8位占用符号序列,其中si表示八叉树中结点ni的符号。当si=[0, 0, 0, 1, 0, 0, 0, 1]时,意味着节点ni有两个子节点,这两个子节点的对应索引分别为4和8。

图 4。(a)提出的网络架构的深度熵模型和(b)提出的坐标细化模 块。“Conv(128, 3)”表示当通道数为128,核大小为3x3x3时的三维卷积操作。

根据信息理论,在压缩占用率信息时,比特率的下限是香农熵。然而,实际的分布P在实际应用中是未知的。因此,我们使用深度神经网络来估计概率分布,从而与实际分布P相近似。基于学习到的深度熵模型,我们可以无损地压缩八叉树中的这些占用符号。具体来说,我们基于学习的熵模型的目标是最小化交叉熵损失Es~P [minus;logQs(s)],其中Q(s)是s的估计概率。

值得注意的是,当前结点ni上的子概率分布qs(si)可能依赖于先前解码的节点以及当前深度水平上的相邻节点,因此很难对这种复杂的关系进行建模。在本研究中,我们假设当前节点ni的占用符号si

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[596216],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版