当前位置: X-MOL 学术Image Vis. Comput. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
SAANet: Spatial adaptive alignment network for object detection in automatic driving
Image and Vision Computing ( IF 4.2 ) Pub Date : 2020-01-07 , DOI: 10.1016/j.imavis.2020.103873
Junying Chen , Tongyao Bai

Both images and point clouds are beneficial for object detection in a visual navigation module for autonomous driving. The spatial relationships between different objects at different times in a bimodal space can vary significantly. It is difficult to combine bimodal descriptions into a unified model to effectively detect objects in an efficient amount of time. In addition, conventional voxelization methods resolve point clouds into voxels at a global level, and often overlook local attributes of the voxels. To address these problems, we propose a novel fusion-based deep framework named SAANet. SAANet utilizes a spatial adaptive alignment (SAA) module to align point cloud features and image features, by automatically discovering the complementary information between point clouds and images. Specifically, we transform the point clouds into 3D voxels, and introduce local orientation encoding to represent the point clouds. Then, we use a sparse convolutional neural network to learn a point cloud feature. Simultaneously, a ResNet-like 2D convolutional neural network is used to extract an image feature. Next, the point cloud feature and image feature are fused by our SAA block to derive a comprehensive feature. Then, the labels and 3D boxes for objects are learned using a multi-task learning network. Finally, an experimental evaluation on the KITTI benchmark demonstrates the advantages of our method in terms of average precision and inference time, as compared to previous state-of-the-art results for 3D object detection.



中文翻译:

SAANet:用于自动驾驶中物体检测的空间自适应对准网络

图像和点云都对自动驾驶的视觉导航模块中的对象检测很有帮助。双峰空间中不同时间的不同对象之间的空间关系可能会显着变化。很难将双峰描述结合到一个统一的模型中,以在有效的时间内有效地检测物体。另外,常规体素化方法在全局级别将点云解析为体素,并且通常会忽略体素的局部属性。为了解决这些问题,我们提出了一种新颖的基于融合的深度框架SAANet。SAANet通过自动发现点云和图像之间的补充信息,利用空间自适应对齐(SAA)模块来对齐点云特征和图像特征。特别,我们将点云转换为3D体素,并引入局部方向编码来表示点云。然后,我们使用稀疏卷积神经网络学习点云特征。同时,使用类似ResNet的2D卷积神经网络提取图像特征。接下来,通过我们的SAA模块将点云特征和图像特征融合在一起,以得出综合特征。然后,使用多任务学习网络学习对象的标签和3D框。最后,与以前的3D对象检测最新结果相比,在KITTI基准上进行的实验评估证明了我们的方法在平均精度和推断时间方面的优势。我们使用稀疏卷积神经网络来学习点云特征。同时,使用类似ResNet的2D卷积神经网络提取图像特征。接下来,通过我们的SAA模块将点云特征和图像特征融合在一起,以得出综合特征。然后,使用多任务学习网络学习对象的标签和3D框。最后,与以前的3D对象检测最新结果相比,在KITTI基准上进行的实验评估证明了我们的方法在平均精度和推断时间方面的优势。我们使用稀疏卷积神经网络来学习点云特征。同时,使用类似ResNet的2D卷积神经网络提取图像特征。接下来,通过我们的SAA模块将点云特征和图像特征融合在一起,以得出综合特征。然后,使用多任务学习网络学习对象的标签和3D框。最后,与以前的3D对象检测最新结果相比,在KITTI基准上进行的实验评估证明了我们的方法在平均精度和推断时间方面的优势。使用多任务学习网络学习对象的标签和3D框。最后,与以前的3D对象检测最新结果相比,对KITTI基准进行的实验评估证明了我们方法在平均精度和推断时间方面的优势。使用多任务学习网络学习对象的标签和3D框。最后,与以前的3D对象检测最新结果相比,对KITTI基准进行的实验评估证明了我们方法在平均精度和推断时间方面的优势。

更新日期:2020-01-07
down
wechat
bug