Fast Retinomorphic Event-Driven Representations for Video Gameplay and Action Recognition,IEEE Transactions on Computational Imaging

当前位置： X-MOL 学术 › IEEE Trans. Comput. Imaging › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

Fast Retinomorphic Event-Driven Representations for Video Gameplay and Action Recognition
IEEE Transactions on Computational Imaging ( IF 4.2 ) Pub Date : 2020-01-01 , DOI: 10.1109/tci.2019.2948755
Huaijin Chen , Wanjia Liu , Rishab Goel , Rhonald C. Lua , Siddharth Mittal , Yuzhong Huang , Ashok Veeraraghavan , Ankit B. Patel

Good temporal representations are crucial for video understanding, and the state-of-the-art video recognition framework is based on two-stream networks. In such framework, besides the regular ConvNets responsible for RGB frame inputs, a second network is introduced to handle the temporal representation, usually the optical flow (OF). However, OF or other task-oriented flow is computationally costly, and is thus typically pre-computed. Critically, this prevents the two-stream approach from being applied to reinforcement learning (RL) applications such as video game playing, where the next state depends on current state and action choices. Inspired by the early vision systems of mammals and insects, we propose a fast event-driven representation (EDR) that models several major properties of early retinal circuits: (1) logarithmic input response, (2) multi-timescale temporal smoothing to filter noise, and (3) bipolar (ON/OFF) pathways for primitive event detection. Trading off the directional information for fast speed ($>$9000 fps), EDR enables fast real-time inference/learning in video applications that require interaction between an agent and the world such as game-playing, virtual robotics, and domain adaptation. In this vein, we use EDR to demonstrate performance improvements over state-of-the-art reinforcement learning algorithms for Atari games, something that has not been possible with pre-computed OF. Moreover, with UCF-101 video action recognition experiments, we show that EDR performs near state-of-the-art in accuracy while achieving a 1,500x speedup in input representation processing, as compared to optical flow.

中文翻译：

用于视频游戏和动作识别的快速 Retinomorphic 事件驱动表示

良好的时间表示对于视频理解至关重要，最先进的视频识别框架基于双流网络。在这样的框架中，除了负责 RGB 帧输入的常规 ConvNets 之外，还引入了第二个网络来处理时间表示，通常是光流 (OF)。然而，OF 或其他面向任务的流程的计算成本很高，因此通常是预先计算的。至关重要的是，这会阻止将双流方法应用于强化学习 (RL) 应用程序，例如玩视频游戏，其中下一个状态取决于当前状态和动作选择。受哺乳动物和昆虫早期视觉系统的启发，我们提出了一种快速事件驱动表示（EDR），它模拟了早期视网膜回路的几个主要特性：（1）对数输入响应，(2) 用于过滤噪声的多时间尺度时间平滑，以及 (3) 用于原始事件检测的双极 (ON/OFF) 路径。EDR 以快速（$>$9000 fps）换取方向信息，可在需要代理与世界之间交互的视频应用程序中实现快速实时推理/学习，例如游戏、虚拟机器人和域适应。在这方面，我们使用 EDR 来展示对 Atari 游戏最先进的强化学习算法的性能改进，这是预先计算的 OF 无法实现的。此外，通过 UCF-101 视频动作识别实验，我们表明，与光流相比，EDR 在准确度方面接近最先进，同时在输入表示处理方面实现了 1,500 倍的加速。(3) 用于原始事件检测的双极 (ON/OFF) 通路。EDR 以快速（$>$9000 fps）换取方向信息，可在需要代理与世界之间交互的视频应用程序中实现快速实时推理/学习，例如游戏、虚拟机器人和域适应。在这方面，我们使用 EDR 来展示对 Atari 游戏最先进的强化学习算法的性能改进，这是预先计算的 OF 无法实现的。此外，通过 UCF-101 视频动作识别实验，我们表明，与光流相比，EDR 在准确度方面接近最先进，同时在输入表示处理方面实现了 1,500 倍的加速。(3) 用于原始事件检测的双极 (ON/OFF) 通路。EDR 以快速（$>$9000 fps）换取方向信息，可在需要代理与世界之间交互的视频应用程序中实现快速实时推理/学习，例如游戏、虚拟机器人和域适应。在这方面，我们使用 EDR 来展示对 Atari 游戏最先进的强化学习算法的性能改进，这是预先计算的 OF 无法实现的。此外，通过 UCF-101 视频动作识别实验，我们表明，与光流相比，EDR 在准确度方面接近最先进，同时在输入表示处理方面实现了 1,500 倍的加速。9000 美元 fps），EDR 可以在需要代理与世界之间交互的视频应用程序中实现快速实时推理/学习，例如游戏、虚拟机器人和域适应。在这方面，我们使用 EDR 来展示对 Atari 游戏最先进的强化学习算法的性能改进，这是预先计算的 OF 无法实现的。此外，通过 UCF-101 视频动作识别实验，我们表明，与光流相比，EDR 在准确度方面接近最先进，同时在输入表示处理方面实现了 1,500 倍的加速。9000 美元 fps），EDR 可以在需要代理与世界之间交互的视频应用程序中实现快速实时推理/学习，例如游戏、虚拟机器人和域适应。在这方面，我们使用 EDR 来展示对 Atari 游戏最先进的强化学习算法的性能改进，这是预先计算的 OF 无法实现的。此外，通过 UCF-101 视频动作识别实验，我们表明，与光流相比，EDR 在准确度方面接近最先进，同时在输入表示处理方面实现了 1,500 倍的加速。我们使用 EDR 来展示对 Atari 游戏最先进的强化学习算法的性能改进，这是预先计算的 OF 无法实现的。此外，通过 UCF-101 视频动作识别实验，我们表明，与光流相比，EDR 在准确度方面接近最先进，同时在输入表示处理方面实现了 1,500 倍的加速。我们使用 EDR 来展示对 Atari 游戏最先进的强化学习算法的性能改进，这是预先计算的 OF 无法实现的。此外，通过 UCF-101 视频动作识别实验，我们表明，与光流相比，EDR 在准确度方面接近最先进，同时在输入表示处理方面实现了 1,500 倍的加速。

更新日期：2020-01-01

点击分享查看原文

点击收藏

阅读更多本刊最新论文