当前位置:
X-MOL 学术
›
arXiv.cs.CL
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
RNN-T For Latency Controlled ASR With Improved Beam Search
arXiv - CS - Computation and Language Pub Date : 2019-11-05 , DOI: arxiv-1911.01629 Mahaveer Jain, Kjell Schubert, Jay Mahadeokar, Ching-Feng Yeh, Kaustubh Kalgaonkar, Anuroop Sriram, Christian Fuegen, Michael L. Seltzer
arXiv - CS - Computation and Language Pub Date : 2019-11-05 , DOI: arxiv-1911.01629 Mahaveer Jain, Kjell Schubert, Jay Mahadeokar, Ching-Feng Yeh, Kaustubh Kalgaonkar, Anuroop Sriram, Christian Fuegen, Michael L. Seltzer
Neural transducer-based systems such as RNN Transducers (RNN-T) for automatic
speech recognition (ASR) blend the individual components of a traditional
hybrid ASR systems (acoustic model, language model, punctuation model, inverse
text normalization) into one single model. This greatly simplifies training and
inference and hence makes RNN-T a desirable choice for ASR systems. In this
work, we investigate use of RNN-T in applications that require a tune-able
latency budget during inference time. We also improved the decoding speed of
the originally proposed RNN-T beam search algorithm. We evaluated our proposed
system on English videos ASR dataset and show that neural RNN-T models can
achieve comparable WER and better computational efficiency compared to a well
tuned hybrid ASR baseline.
中文翻译:
RNN-T 用于延迟控制的 ASR,具有改进的波束搜索
基于神经换能器的系统,例如用于自动语音识别 (ASR) 的 RNN 换能器 (RNN-T),将传统混合 ASR 系统的各个组件(声学模型、语言模型、标点符号模型、逆向文本归一化)融合到一个模型中。这极大地简化了训练和推理,因此使 RNN-T 成为 ASR 系统的理想选择。在这项工作中,我们研究了 RNN-T 在推理时间内需要可调整延迟预算的应用程序中的使用。我们还提高了最初提出的 RNN-T 波束搜索算法的解码速度。我们在英语视频 ASR 数据集上评估了我们提出的系统,并表明与经过良好调整的混合 ASR 基线相比,神经 RNN-T 模型可以实现可比的 WER 和更好的计算效率。
更新日期:2020-01-17
中文翻译:
RNN-T 用于延迟控制的 ASR,具有改进的波束搜索
基于神经换能器的系统,例如用于自动语音识别 (ASR) 的 RNN 换能器 (RNN-T),将传统混合 ASR 系统的各个组件(声学模型、语言模型、标点符号模型、逆向文本归一化)融合到一个模型中。这极大地简化了训练和推理,因此使 RNN-T 成为 ASR 系统的理想选择。在这项工作中,我们研究了 RNN-T 在推理时间内需要可调整延迟预算的应用程序中的使用。我们还提高了最初提出的 RNN-T 波束搜索算法的解码速度。我们在英语视频 ASR 数据集上评估了我们提出的系统,并表明与经过良好调整的混合 ASR 基线相比,神经 RNN-T 模型可以实现可比的 WER 和更好的计算效率。