当前位置: X-MOL 学术arXiv.cs.CV › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
深度图像压缩中潜在的跨通道上下文模型
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2021-03-04 , DOI: arxiv-2103.02884
Changyue Ma, Zhao Wang, Ruling Liao, Yan Ye

本文提出了深层图像压缩中潜在的跨通道上下文模型。通常,深度图像压缩基于自动编码器框架,该框架将原始图像转换为编码器的潜像,并从解码器的量化潜像中恢复重建的图像。该变换通常与熵模型结合,该熵模型估计量化潜伏的概率分布以进行算术编码。目前,联合自回归和分层先验熵模型已被广泛采用,以捕获来自超潜在的全局上下文和来自量化潜在元素的局部上下文。对于局部上下文,广泛采用的2D遮罩卷积只能捕获空间上下文。但是,我们观察到潜伏中不同通道之间存在很强的相关性。为了利用跨信道相关性,我们建议根据信道索引将潜伏数分为几组,并一一编码这些组,其中先前编码的组用于为当前组提供跨信道上下文。所提出的跨通道上下文模型与联合自回归和分层先验熵模型相结合。实验结果表明,使用PSNR作为失真度量,组合模型的BD速率比基准熵模型降低了6.30%和6.31%,比最新的视频编码标准多功能视频编码(VVC)降低了2.50%和2.20%分别用于Kodak和CVPR CLIC2020专业数据集。此外,当针对MS-SSIM指标进行优化时,我们的方法会生成视觉上更令人愉悦的重建图像。我们建议根据通道索引将潜伏者分为几组,并一一编码,其中以前编码的组用于为当前组提供跨通道上下文。所提出的跨通道上下文模型与联合自回归和分层先验熵模型相结合。实验结果表明,使用PSNR作为失真度量,组合模型的BD速率比基准熵模型降低了6.30%和6.31%,比最新的视频编码标准多功能视频编码(VVC)降低了2.50%和2.20%分别用于Kodak和CVPR CLIC2020专业数据集。此外,当针对MS-SSIM指标进行优化时,我们的方法会生成视觉上更令人愉悦的重建图像。我们建议根据通道索引将潜伏者分为几组,并一一编码,其中以前编码的组用于为当前组提供跨通道上下文。所提出的跨通道上下文模型与联合自回归和分层先验熵模型相结合。实验结果表明,使用PSNR作为失真度量,组合模型的BD速率比基准熵模型降低了6.30%和6.31%,比最新的视频编码标准多功能视频编码(VVC)降低了2.50%和2.20%分别用于Kodak和CVPR CLIC2020专业数据集。此外,当针对MS-SSIM指标进行优化时,我们的方法会生成视觉上更令人愉悦的重建图像。



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug