当前位置: X-MOL 学术arXiv.cs.SD › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
原始波形的端到端错误诊断和诊断
arXiv - CS - Sound Pub Date : 2021-03-04 , DOI: arxiv-2103.03023
Bi-Cheng Yan, Berlin Chen

错误发音检测和诊断(MDD)旨在识别发音错误并提供指导性反馈,以指导非母语学习者,这是计算机辅助发音训练(CAPT)系统的核心组成部分。但是,由于收集非本机数据以及相关的注释既费时又费力,因此MDD经常会遇到数据稀疏的问题。为了解决这个问题,我们探索了MDD的完全端到端(E2E)神经模型,该模型直接基于原始波形来处理学习者的语音。与传统的手工声学特征相比,原始波形保留了更多的声学现象,并有可能帮助神经网络发现更好,更个性化的表示形式。为此,我们的MDD模型采用了一个称为SincNet的模块来输入原始波形并将其转换为合适的矢量表示序列。SincNet利用基本正弦(sinc)函数来实现可学习的带通滤波器,并从卷积神经网络(CNN)中获得启发。与CNN相比,SincNet的参数更少,更易于人工解释。在L2-ARCTIC数据集上进行了广泛的实验,该数据集是为CAPT研究而编写的可公开获得的非母语英语语音语料库。我们发现,SincNet的Sinc过滤器可以快速适应不同国籍的非母语学习者。此外,与采用标准手工声学特征输入的最新E2E MDD模型相比,我们的模型可以实现可比的错误发音检测性能。除此之外,我们的模型还极大地改善了电话错误率(PER)和诊断准确性。



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug