当前位置: X-MOL 学术arXiv.cs.MM › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Word-level Deep Sign Language Recognition from Video: A New Large-scale Dataset and Methods Comparison
arXiv - CS - Multimedia Pub Date : 2019-10-24 , DOI: arxiv-1910.11006
Dongxu Li, Cristian Rodriguez Opazo, Xin Yu, Hongdong Li

Vision-based sign language recognition aims at helping deaf people to communicate with others. However, most existing sign language datasets are limited to a small number of words. Due to the limited vocabulary size, models learned from those datasets cannot be applied in practice. In this paper, we introduce a new large-scale Word-Level American Sign Language (WLASL) video dataset, containing more than 2000 words performed by over 100 signers. This dataset will be made publicly available to the research community. To our knowledge, it is by far the largest public ASL dataset to facilitate word-level sign recognition research. Based on this new large-scale dataset, we are able to experiment with several deep learning methods for word-level sign recognition and evaluate their performances in large scale scenarios. Specifically we implement and compare two different models,i.e., (i) holistic visual appearance-based approach, and (ii) 2D human pose based approach. Both models are valuable baselines that will benefit the community for method benchmarking. Moreover, we also propose a novel pose-based temporal graph convolution networks (Pose-TGCN) that models spatial and temporal dependencies in human pose trajectories simultaneously, which has further boosted the performance of the pose-based method. Our results show that pose-based and appearance-based models achieve comparable performances up to 66% at top-10 accuracy on 2,000 words/glosses, demonstrating the validity and challenges of our dataset. Our dataset and baseline deep models are available at \url{https://dxli94.github.io/WLASL/}.

中文翻译:

来自视频的词级深度手语识别:一个新的大规模数据集和方法比较

基于视觉的手语识别旨在帮助聋人与他人交流。然而,大多数现有的手语数据集仅限于少量单词。由于词汇量有限,从这些数据集中学习的模型无法应用于实践。在本文中,我们介绍了一个新的大规模词级美国手语 (WLASL) 视频数据集,其中包含由 100 多个签名者执行的 2000 多个单词。该数据集将向研究界公开。据我们所知,它是迄今为止最大的公共 ASL 数据集,可促进单词级符号识别研究。基于这个新的大规模数据集,我们能够尝试几种深度学习方法进行词级符号识别,并评估它们在大规模场景中的性能。具体来说,我们实现并比较了两种不同的模型,即(i)基于整体视觉外观的方法,以及(ii)基于 2D 人体姿势的方法。这两种模型都是有价值的基线,将有益于社区进行方法基准测试。此外,我们还提出了一种新的基于姿势的时间图卷积网络(Pose-TGCN),它同时对人体姿势轨迹的空间和时间依赖性进行建模,这进一步提高了基于姿势的方法的性能。我们的结果表明,基于姿势和基于外观的模型在 2,000 个单词/词汇表上的前 10 名准确率下实现了高达 66% 的可比性能,证明了我们数据集的有效性和挑战。我们的数据集和基线深度模型可在 \url{https://dxli94.github.io/WLASL/} 获得。(i) 基于整体视觉外观的方法,以及 (ii) 基于 2D 人体姿势的方法。这两种模型都是有价值的基线,将有益于社区进行方法基准测试。此外,我们还提出了一种新颖的基于姿势的时间图卷积网络(Pose-TGCN),它同时对人体姿势轨迹的空间和时间依赖性进行建模,这进一步提高了基于姿势的方法的性能。我们的结果表明,基于姿势和基于外观的模型在 2,000 个单词/词汇表上的前 10 名准确率下实现了高达 66% 的可比性能,证明了我们数据集的有效性和挑战。我们的数据集和基线深度模型可在 \url{https://dxli94.github.io/WLASL/} 获得。(i) 基于整体视觉外观的方法,以及 (ii) 基于 2D 人体姿势的方法。这两种模型都是有价值的基线,将有益于社区进行方法基准测试。此外,我们还提出了一种新的基于姿势的时间图卷积网络(Pose-TGCN),它同时对人体姿势轨迹的空间和时间依赖性进行建模,这进一步提高了基于姿势的方法的性能。我们的结果表明,基于姿势和基于外观的模型在 2,000 个单词/词汇表上的前 10 名准确率下实现了高达 66% 的可比性能,证明了我们数据集的有效性和挑战。我们的数据集和基线深度模型可在 \url{https://dxli94.github.io/WLASL/} 获得。这两种模型都是有价值的基线,将有益于社区进行方法基准测试。此外,我们还提出了一种新的基于姿势的时间图卷积网络(Pose-TGCN),它同时对人体姿势轨迹的空间和时间依赖性进行建模,这进一步提高了基于姿势的方法的性能。我们的结果表明,基于姿势和基于外观的模型在 2,000 个单词/词汇表上的前 10 名准确率下实现了高达 66% 的可比性能,证明了我们数据集的有效性和挑战。我们的数据集和基线深度模型可在 \url{https://dxli94.github.io/WLASL/} 获得。这两种模型都是有价值的基线,将有益于社区进行方法基准测试。此外,我们还提出了一种新的基于姿势的时间图卷积网络(Pose-TGCN),它同时对人体姿势轨迹的空间和时间依赖性进行建模,这进一步提高了基于姿势的方法的性能。我们的结果表明,基于姿势和基于外观的模型在 2,000 个单词/词汇表上的前 10 名准确率下实现了高达 66% 的可比性能,证明了我们数据集的有效性和挑战。我们的数据集和基线深度模型可在 \url{https://dxli94.github.io/WLASL/} 获得。这进一步提高了基于姿势的方法的性能。我们的结果表明,基于姿势和基于外观的模型在 2,000 个单词/词汇表上的前 10 名准确率下实现了高达 66% 的可比性能,证明了我们数据集的有效性和挑战。我们的数据集和基线深度模型可在 \url{https://dxli94.github.io/WLASL/} 获得。这进一步提高了基于姿势的方法的性能。我们的结果表明,基于姿势和基于外观的模型在 2,000 个单词/词汇表上的前 10 名准确率下实现了高达 66% 的可比性能,证明了我们数据集的有效性和挑战。我们的数据集和基线深度模型可在 \url{https://dxli94.github.io/WLASL/} 获得。
更新日期:2020-01-22
down
wechat
bug