当前位置: X-MOL 学术ACM Trans. Multimed. Comput. Commun. Appl. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Learning a Deep Agent to Predict Head Movement in 360-Degree Images
ACM Transactions on Multimedia Computing, Communications, and Applications ( IF 5.2 ) Pub Date : 2020-12-17 , DOI: 10.1145/3410455
Yucheng Zhu 1 , Guangtao Zhai 1 , Xiongkuo Min 1 , Jiantao Zhou 2
Affiliation  

Virtual reality adequately stimulates senses to trick users into accepting the virtual environment. To create a sense of immersion, high-resolution images are required to satisfy human visual system, and low latency is essential for smooth operations, which put great demands on data processing and transmission. Actually, when exploring in the virtual environment, viewers only perceive the content in the current field of view. Therefore, if we can predict the head movements that are important behaviors of viewers, more processing resources can be allocated to the active field of view. In this article, we propose a model to predict the trajectory of head movement. Deep reinforcement learning is employed to mimic the decision making. In our framework, to characterize each state, features for viewport images are extracted by convolutional neural networks. In addition, the spherical coordinate maps and visited maps are generated for each viewport image, which facilitate the multiple dimensions of the state information by considering the impact of historical head movement and position information. To ensure the accurate simulation of visual behaviors during the watching of panoramas, we stipulate that the model imitates the behaviors of human demonstrators. To allow the model to generalize to more conditions, the intrinsic motivation is employed to guide the agent’s action toward reducing uncertainty, which can enhance robustness during the exploration. The experimental results demonstrate the effectiveness of the proposed stepwise head movement predictor.

中文翻译:

学习深度代理以预测 360 度图像中的头部运动

虚拟现实充分刺激感官,诱使用户接受虚拟环境。要营造身临其境的感觉,需要高分辨率的图像来满足人类的视觉系统,低延迟是流畅操作的关键,这对数据处理和传输提出了很高的要求。实际上,在虚拟环境中进行探索时,观看者只感知当前视野中的内容。因此,如果我们能够预测作为观看者重要行为的头部运动,就可以将更多的处理资源分配给活动视野。在本文中,我们提出了一个模型来预测头部运动的轨迹。深度强化学习用于模拟决策。在我们的框架中,为了描述每个状态,视口图像的特征由卷积神经网络提取。此外,为每个视口图像生成球坐标图和访问图,通过考虑历史头部运动和位置信息的影响,促进状态信息的多维化。为确保在观看全景图过程中准确模拟视觉行为,我们规定模型模仿人类演示者的行为。为了让模型能够推广到更多条件,内在动机被用来指导智能体减少不确定性的行动,这可以增强探索过程中的鲁棒性。实验结果证明了所提出的逐步头部运动预测器的有效性。为每个视口图像生成球面坐标图和访问图,通过考虑历史头部运动和位置信息的影响,促进状态信息的多维化。为确保在观看全景图过程中准确模拟视觉行为,我们规定模型模仿人类演示者的行为。为了让模型能够推广到更多条件,内在动机被用来指导智能体减少不确定性的行动,这可以增强探索过程中的鲁棒性。实验结果证明了所提出的逐步头部运动预测器的有效性。为每个视口图像生成球面坐标图和访问图,通过考虑历史头部运动和位置信息的影响,促进状态信息的多维化。为确保在观看全景图过程中准确模拟视觉行为,我们规定模型模仿人类演示者的行为。为了让模型能够推广到更多条件,内在动机被用来指导智能体减少不确定性的行动,这可以增强探索过程中的鲁棒性。实验结果证明了所提出的逐步头部运动预测器的有效性。通过考虑历史头部运动和位置信息的影响,促进状态信息的多维度。为确保在观看全景图过程中准确模拟视觉行为,我们规定模型模仿人类演示者的行为。为了让模型能够推广到更多条件,内在动机被用来指导智能体减少不确定性的行动,这可以增强探索过程中的鲁棒性。实验结果证明了所提出的逐步头部运动预测器的有效性。通过考虑历史头部运动和位置信息的影响,促进状态信息的多维度。为确保在观看全景图过程中准确模拟视觉行为,我们规定模型模仿人类演示者的行为。为了让模型能够推广到更多条件,内在动机被用来指导智能体减少不确定性的行动,这可以增强探索过程中的鲁棒性。实验结果证明了所提出的逐步头部运动预测器的有效性。内在动机被用来指导智能体减少不确定性的行动,这可以增强探索过程中的鲁棒性。实验结果证明了所提出的逐步头部运动预测器的有效性。内在动机被用来指导智能体减少不确定性的行动,这可以增强探索过程中的鲁棒性。实验结果证明了所提出的逐步头部运动预测器的有效性。
更新日期:2020-12-17
down
wechat
bug