当前位置: X-MOL 学术IEEE Trans. Cybern. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Camera-Assisted Video Saliency Prediction and Its Applications
IEEE Transactions on Cybernetics ( IF 11.8 ) Pub Date : 2018-09-01 , DOI: 10.1109/tcyb.2017.2741498
Xiao Sun , Yuxing Hu , Luming Zhang , Yanxiang Chen , Ping Li , Zhao Xie , Zhenguang Liu

Video saliency prediction is an indispensable yet challenging technique which can facilitate various applications, such as video surveillance, autonomous driving, and realistic rendering. Based on the popularity of embedded cameras, we in this paper predict region-level saliency from videos by leveraging human gaze locations recorded using a camera, (e.g., those equipped on an iMAC and laptop PC). Our proposed camera-assisted mechanism improves saliency prediction by discovering human attended regions inside a video clip. It is orthogonal to the current saliency models, i.e., any existing video/image saliency model can be boosted by our mechanism. First of all, the spatial-and temporal-level visual features are exploited collaboratively for calculating an initial saliency map. We notice that the current saliency models are not sufficiently adaptable to the variations in lighting, different view angles, and complicated backgrounds. Therefore, assisted by a camera tracking human gaze movements, a non-negative matrix factorization algorithm is designed to accurately localize the semantically/visually salient video regions perceived by humans. Finally, the learned human gaze locations as well as the initial saliency map are integrated to optimize video saliency calculation. Empirical results thoroughly demonstrated that: 1) our approach achieves the state-of-the-art video saliency prediction accuracy by outperforming 11 mainstream algorithms considerably and 2) our method can conveniently and successfully enhance video retargeting, quality estimation, and summarization.

中文翻译:

摄像机辅助视频显着性预测及其应用

视频显着性预测是必不可少但具有挑战性的技术,可以促进各种应用,例如视频监视,自动驾驶和逼真的渲染。基于嵌入式摄像头的流行,我们在本文中通过利用摄像头(例如,配备在iMAC和便携式PC上的摄像头)记录的人眼凝视位置,从视频中预测区域级显着性。我们提出的相机辅助机制通过发现视频剪辑中的人为参与区域来提高显着性预测。它与当前的显着性模型正交,即,任何现有的视频/图像显着性模型都可以通过我们的机制来提高。首先,空间和时间级别的视觉特征被共同利用来计算初始显着图。我们注意到,当前的显着性模型不足以适应光照,不同视角和复杂背景的变化。因此,在跟踪人的视线运动的摄像机的辅助下,设计了一种非负矩阵分解算法,以准确定位人所感知的语义/视觉上显着的视频区域。最后,将学习到的人的视线位置以及初始显着性图进行整合,以优化视频显着性计算。经验结果完全证明:1)我们的方法通过显着优于11种主流算法来达到最新的视频显着性预测精度; 2)我们的方法可以方便,成功地增强视频重定向,质量估计和摘要。和复杂的背景。因此,在跟踪人的视线运动的摄像机的辅助下,设计了一种非负矩阵分解算法,以准确定位人所感知的语义/视觉上显着的视频区域。最后,将学习到的人的视线位置以及初始显着性图进行整合,以优化视频显着性计算。经验结果完全证明:1)我们的方法通过显着优于11种主流算法来达到最新的视频显着性预测精度; 2)我们的方法可以方便,成功地增强视频重定向,质量估计和摘要。和复杂的背景。因此,在跟踪人的视线运动的摄像机的辅助下,设计了一种非负矩阵分解算法,以准确定位人所感知的语义/视觉上显着的视频区域。最后,将学习到的人的视线位置以及初始显着性图进行整合,以优化视频显着性计算。经验结果完全证明:1)我们的方法通过明显优于11种主流算法,达到了最新的视频显着性预测精度; 2)我们的方法可以方便,成功地增强视频重定向,质量估计和摘要。设计了一种非负矩阵分解算法,以准确定位人类所感知的语义/视觉上显着的视频区域。最后,将学习到的人的视线位置以及初始显着性图进行整合,以优化视频显着性计算。经验结果完全证明:1)我们的方法通过显着优于11种主流算法来达到最新的视频显着性预测精度; 2)我们的方法可以方便,成功地增强视频重定向,质量估计和摘要。设计了一种非负矩阵分解算法,以准确定位人类所感知的语义/视觉上显着的视频区域。最后,将学习到的人的视线位置以及初始显着性图进行整合,以优化视频显着性计算。经验结果完全证明:1)我们的方法通过显着优于11种主流算法来达到最新的视频显着性预测精度; 2)我们的方法可以方便,成功地增强视频重定向,质量估计和摘要。
更新日期:2018-09-01
down
wechat
bug