当前位置: X-MOL 学术J. Real-Time Image Proc. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Real-time eye state recognition using dual convolutional neural network ensemble
Journal of Real-Time Image Processing ( IF 2.9 ) Pub Date : 2022-03-16 , DOI: 10.1007/s11554-022-01211-5
Sumeet Saurav 1, 2 , Ravi Saini 1, 2 , Sanjay Singh 1, 2 , Prashant Gidde 2
Affiliation  

Automatic recognition of the eye states is essential for diverse computer vision applications related to drowsiness detection, facial emotion recognition (FER), human–computer interaction (HCI), etc. Existing solutions for eye state detection are either parameter intensive or suffer from a low recognition rate. This paper presents the design and implementation of a vision-based system for real-time eye state recognition on a resource-constrained embedded platform to tackle these issues. The designed system uses an ensemble of two lightweight convolutional neural networks (CNN), each trained to extract relevant information from the eye patches. We adopted transfer-learning-based fine-tuning to overcome the over-fitting issues when training the CNNs on small sample eye state datasets. Once trained, these CNNs are integrated and jointly fine-tuned to achieve enhanced performance. Experimental results manifest the effectiveness of the proposed eye state recognizer that is robust and computationally efficient. On the ZJU dataset, the proposed DCNNE model delivered the state-of-the-art recognition accuracy of 97.99% and surpassed the prior best recognition accuracy of 97.20% by 0.79%. The designed model also achieved competitive results on the CEW and MRL datasets. Finally, the designed CNNs are optimized and ported on two different embedded platforms for real-world applications with real-time performance. The complete system runs at 62 frames per second (FPS) on an Nvidia Xavier device and 11 FPS on a low-cost Intel NCS2 embedded platform using a frame size of 640 \(\times\) 480 pixels resolution.



中文翻译:

使用双卷积神经网络集成的实时眼睛状态识别

眼睛状态的自动识别对于与睡意检测、面部情绪识别 (FER)、人机交互 (HCI) 等相关的各种计算机视觉应用至关重要。现有的眼睛状态检测解决方案要么是参数密集型的,要么存在低识别率。本文介绍了基于视觉的系统的设计和实现,用于在资源受限的嵌入式平台上进行实时眼睛状态识别,以解决这些问题。设计的系统使用两个轻量级卷积神经网络 (CNN) 的集合,每个都经过训练以从眼罩中提取相关信息。我们采用基于迁移学习的微调来克服在小样本眼睛状态数据集上训练 CNN 时的过拟合问题。一经训练,这些 CNN 被集成并联合微调以实现增强的性能。实验结果证明了所提出的眼睛状态识别器的有效性,该识别器具有鲁棒性和计算效率。在 ZJU 数据集上,所提出的 DCNNE 模型提供了 97.99% 的最新识别准确率,比之前的最佳识别准确率 97.20% 高出 0.79%。设计的模型还在 CEW 和 MRL 数据集上取得了有竞争力的结果。最后,设计的 CNN 被优化并移植到两个不同的嵌入式平台上,用于具有实时性能的实际应用。整个系统在 Nvidia Xavier 设备上以每秒 62 帧 (FPS) 的速度运行,在使用 640 帧大小的低成本英特尔 NCS2 嵌入式平台上以每秒 11 帧的速度运行 实验结果证明了所提出的眼睛状态识别器的有效性,该识别器具有鲁棒性和计算效率。在 ZJU 数据集上,所提出的 DCNNE 模型提供了 97.99% 的最新识别准确率,比之前的最佳识别准确率 97.20% 高出 0.79%。设计的模型还在 CEW 和 MRL 数据集上取得了有竞争力的结果。最后,设计的 CNN 被优化并移植到两个不同的嵌入式平台上,用于具有实时性能的实际应用。整个系统在 Nvidia Xavier 设备上以每秒 62 帧 (FPS) 的速度运行,在使用 640 帧大小的低成本英特尔 NCS2 嵌入式平台上以每秒 11 帧的速度运行 实验结果证明了所提出的眼睛状态识别器的有效性,该识别器具有鲁棒性和计算效率。在 ZJU 数据集上,所提出的 DCNNE 模型提供了 97.99% 的最新识别准确率,比之前的最佳识别准确率 97.20% 高出 0.79%。设计的模型还在 CEW 和 MRL 数据集上取得了有竞争力的结果。最后,设计的 CNN 被优化并移植到两个不同的嵌入式平台上,用于具有实时性能的实际应用。整个系统在 Nvidia Xavier 设备上以每秒 62 帧 (FPS) 的速度运行,在使用 640 帧大小的低成本英特尔 NCS2 嵌入式平台上以每秒 11 帧的速度运行 所提出的 DCNNE 模型提供了 97.99% 的最新识别准确率,比之前的最佳识别准确率 97.20% 高出 0.79%。设计的模型还在 CEW 和 MRL 数据集上取得了有竞争力的结果。最后,设计的 CNN 被优化并移植到两个不同的嵌入式平台上,用于具有实时性能的实际应用。整个系统在 Nvidia Xavier 设备上以每秒 62 帧 (FPS) 的速度运行,在使用 640 帧大小的低成本英特尔 NCS2 嵌入式平台上以每秒 11 帧的速度运行 所提出的 DCNNE 模型提供了 97.99% 的最新识别准确率,比之前的最佳识别准确率 97.20% 高出 0.79%。设计的模型还在 CEW 和 MRL 数据集上取得了有竞争力的结果。最后,设计的 CNN 被优化并移植到两个不同的嵌入式平台上,用于具有实时性能的实际应用。整个系统在 Nvidia Xavier 设备上以每秒 62 帧 (FPS) 的速度运行,在使用 640 帧大小的低成本英特尔 NCS2 嵌入式平台上以每秒 11 帧的速度运行 设计的 CNN 经过优化并移植到两个不同的嵌入式平台上,用于具有实时性能的实际应用。整个系统在 Nvidia Xavier 设备上以每秒 62 帧 (FPS) 的速度运行,在使用 640 帧大小的低成本英特尔 NCS2 嵌入式平台上以每秒 11 帧的速度运行 设计的 CNN 经过优化并移植到两个不同的嵌入式平台上,用于具有实时性能的实际应用。整个系统在 Nvidia Xavier 设备上以每秒 62 帧 (FPS) 的速度运行,在使用 640 帧大小的低成本英特尔 NCS2 嵌入式平台上以每秒 11 帧的速度运行\(\times\) 480 像素分辨率。

更新日期:2022-03-16
down
wechat
bug