当前位置: X-MOL 学术IEEE Trans. Circ. Syst. Video Technol. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Lossy Point Cloud Geometry Compression via End-to-End Learning
IEEE Transactions on Circuits and Systems for Video Technology ( IF 8.3 ) Pub Date : 2021-01-13 , DOI: 10.1109/tcsvt.2021.3051377
Jianqiang Wang , Hao Zhu , Haojie Liu , Zhan Ma

This paper presents a novel end-to-end Learned Point Cloud Geometry Compression (a.k.a., Learned-PCGC) system, leveraging stacked Deep Neural Networks (DNN) based Variational AutoEncoder (VAE) to efficiently compress the Point Cloud Geometry (PCG). In this systematic exploration, PCG is first voxelized, and partitioned into non-overlapped 3D cubes, which are then fed into stacked 3D convolutions for compact latent feature and hyperprior generation. Hyperpriors are used to improve the conditional probability modeling of entropy-coded latent features. A Weighted Binary Cross-Entropy (WBCE) loss is applied in training while an adaptive thresholding is used in inference to remove false voxels and reduce the distortion. Objectively, our method exceeds the Geometry-based Point Cloud Compression (G-PCC) algorithm standardized by the Moving Picture Experts Group (MPEG) with a significant performance margin, e.g., at least 60% BD-Rate (Bjöntegaard Delta Rate) savings, using common test datasets, and other public datasets. Subjectively, our method has presented better visual quality with smoother surface reconstruction and appealing details, in comparison to all existing MPEG standard compliant PCC methods. Our method requires about 2.5 MB parameters in total, which is a fairly small size for practical implementation, even on embedded platform. Additional ablation studies analyze a variety of aspects (e.g., thresholding, kernels, etc) to examine the generalization, and application capacity of our Learned-PCGC. We would like to make all materials publicly accessible at https://njuvision.github.io/PCGCv1/ for reproducible research.

中文翻译:

通过端到端学习的有损点云几何压缩

本文提出了一种新颖的端到端 Learned Point Cloud Geometry Compression (aka, Learned-PCGC) 系统,利用基于堆叠深度神经网络 (DNN) 的变分自动编码器 (VAE) 来有效压缩点云几何 (PCG)。在这个系统的探索中,PCG 首先被体素化,然后被分割成不重叠的 3D 立方体,然后将它们送入堆叠的 3D 卷积以进行紧凑的潜在特征和超先验生成。Hyperpriors 用于改进熵编码的潜在特征的条件概率建模。在训练中应用加权二元交叉熵 (WBCE) 损失,而在推理中使用自适应阈值化以去除虚假体素并减少失真。客观地说,我们的方法超过了由运动图像专家组 (MPEG) 标准化的基于几何的点云压缩 (G-PCC) 算法,具有显着的性能余量,例如,至少节省 60% BD-Rate(Bjöntegaard Delta Rate),使用常见的测试数据集和其他公共数据集。主观上,与所有现有的符合 MPEG 标准的 PCC 方法相比,我们的方法具有更好的视觉质量,具有更平滑的表面重建和吸引人的细节。我们的方法总共需要大约 2.5 MB 的参数,这对于实际实现来说是一个相当小的尺寸,即使在嵌入式平台上也是如此。额外的消融研究分析了多个方面(例如,阈值、内核等),以检查我们 Learned-PCGC 的泛化和应用能力。我们希望在以下位置公开所有材料 和其他公共数据集。主观上,与所有现有的符合 MPEG 标准的 PCC 方法相比,我们的方法具有更好的视觉质量,具有更平滑的表面重建和吸引人的细节。我们的方法总共需要大约 2.5 MB 的参数,这对于实际实现来说是一个相当小的尺寸,即使在嵌入式平台上也是如此。额外的消融研究分析了多个方面(例如,阈值、内核等),以检查我们 Learned-PCGC 的泛化和应用能力。我们希望在以下位置公开所有材料 和其他公共数据集。主观上,与所有现有的符合 MPEG 标准的 PCC 方法相比,我们的方法具有更好的视觉质量,具有更平滑的表面重建和吸引人的细节。我们的方法总共需要大约 2.5 MB 的参数,这对于实际实现来说是一个相当小的尺寸,即使在嵌入式平台上也是如此。额外的消融研究分析了多个方面(例如,阈值、内核等),以检查我们 Learned-PCGC 的泛化和应用能力。我们希望在以下位置公开所有材料 即使在嵌入式平台上,这对于实际实现来说也是一个相当小的尺寸。额外的消融研究分析了多个方面(例如,阈值、内核等),以检查我们 Learned-PCGC 的泛化和应用能力。我们希望在以下位置公开所有材料 即使在嵌入式平台上,这对于实际实现来说也是一个相当小的尺寸。额外的消融研究分析了多个方面(例如,阈值、内核等),以检查我们 Learned-PCGC 的泛化和应用能力。我们希望在以下位置公开所有材料https://njuvision.github.io/PCGCv1/ 用于可重复的研究。
更新日期:2021-01-13
down
wechat
bug