当前位置: X-MOL 学术Comput. Graph. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Adaptive Depth Estimation for Pyramid Multi-View Stereo
Computers & Graphics ( IF 2.5 ) Pub Date : 2021-04-24 , DOI: 10.1016/j.cag.2021.04.016
Jie Liao , Yanping Fu , Qingan Yan , Fei Luo , Chunxia Xiao

In this paper, we propose a Multi-View Stereo (MVS) network which can perform efficient high-resolution depth estimation with low memory consumption. Classical learning-based MVS approaches typically construct 3D cost volumes to regress depth information, making the output resolution rather limited as the memory consumption grows cubically with the input resolution. Although recent approaches have made significant progress in scalability by introducing the coarse-to-fine fashion or sequential cost map regularization, the memory consumption still grows quadratically with input resolution and is not friendly for commodity GPU. Observing that the surfaces of most objects in real world are locally smooth, we assume that most of the depth hypotheses upsampled from a well-estimated depth map are accurate. Based on the assumption, we propose a pyramid MVS network based on the adaptive depth estimation, which gradually refines and upsamples the depth map to the desired resolution. Instead of estimating depth hypotheses for all pixels in the depth map, our method only performs prediction at adaptively selected locations, alleviating excessive computation on well-estimated positions. To estimate depth hypotheses for sparse selected locations, we propose the lightweight pixelwise depth estimation network, which can estimate depth value for each selected location independently. Experiments demonstrate that our method can generate results comparable with the state-of-the-art learning-based methods while reconstructing more geometric details and consuming less GPU memory.



中文翻译:

金字塔多视图立体声的自适应深度估计

在本文中,我们提出了一种多视图立体声(MVS)网络,该网络可以执行高效的高分辨率深度估计,而内存消耗却很少。基于经典学习的MVS方法通常会构造3D成本量来回归深度信息,从而随着内存消耗随输入分辨率的增加而三次增加输出分辨率。尽管最近的方法通过引入从粗到精的方式或按顺序的成本图正则化在可伸缩性方面取得了显着进步,但是内存消耗仍随着输入分辨率而呈平方增长,因此对商用GPU不友好。观察到现实世界中大多数对象的表面都是局部光滑的,因此我们假设从良好估计的深度图上采样的大多数深度假设都是准确的。根据这个假设,我们提出了一种基于自适应深度估计的金字塔MVS网络,该网络会逐渐将深度图细化并上采样到所需的分辨率。我们的方法不是为深度图中的所有像素估计深度假设,而是仅在自适应选择的位置执行预测,从而减轻了对准确估计位置的过度计算。为了估计稀疏选定位置的深度假设,我们提出了轻量级的像素深度估计网络,该网络可以独立估计每个选定位置的深度值。实验表明,我们的方法可以产生与基于最新学习方法的结果相当的结果,同时可以重构更多的几何细节并消耗更少的GPU内存。逐步完善深度图并对其进行升采样,以达到所需的分辨率。我们的方法不是为深度图中的所有像素估计深度假设,而是仅在自适应选择的位置执行预测,从而减轻了对准确估计位置的过度计算。为了估计稀疏选定位置的深度假设,我们提出了轻量级的像素深度估计网络,该网络可以独立估计每个选定位置的深度值。实验表明,我们的方法可以产生与基于最新学习方法的结果相当的结果,同时可以重构更多的几何细节并消耗更少的GPU内存。逐步完善深度图并对其进行升采样,以达到所需的分辨率。我们的方法不是为深度图中的所有像素估计深度假设,而是仅在自适应选择的位置执行预测,从而减轻了对准确估计位置的过度计算。为了估计稀疏选定位置的深度假设,我们提出了轻量级的像素深度估计网络,该网络可以独立估计每个选定位置的深度值。实验表明,我们的方法可以产生与基于最新学习方法的结果相当的结果,同时可以重构更多的几何细节并消耗更少的GPU内存。减少对估算好的位置进行过多的计算。为了估计稀疏选定位置的深度假设,我们提出了轻量级的像素深度估计网络,该网络可以独立估计每个选定位置的深度值。实验表明,我们的方法可以产生与基于最新学习方法的结果相当的结果,同时可以重构更多的几何细节并消耗更少的GPU内存。减少对估算好的位置进行过多的计算。为了估计稀疏选定位置的深度假设,我们提出了轻量级的像素深度估计网络,该网络可以独立估计每个选定位置的深度值。实验表明,我们的方法可以产生与基于最新学习方法的结果相当的结果,同时可以重构更多的几何细节并消耗更少的GPU内存。

更新日期:2021-04-26
down
wechat
bug