Automatic assessment of English proficiency for Japanese learners without reference sentences based on deep neural network acoustic models,Speech Communication

当前位置： X-MOL 学术 › Speech Commun. › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

Automatic assessment of English proficiency for Japanese learners without reference sentences based on deep neural network acoustic models
Speech Communication ( IF 2.4 ) Pub Date : 2019-12-23 , DOI: 10.1016/j.specom.2019.12.002
Jiang Fu , Yuya Chiba , Takashi Nose , Akinori Ito

Speech-based computer-assisted language learning (CALL) systems should recognize the utterances of the learner with high accuracy and evaluate the language proficiency of the specific speaker with appropriate methods. In this paper, we discuss the automatic assessment of the second language (L2) for non-native speakers. There are many existing works on pronunciation evaluation by applying the goodness of pronunciation (GOP) method. This paper introduces an automatic proficiency evaluation system that combines various kinds of non-native acoustic models and native ones, such as Gaussian mixture model (GMM)-hidden Markov model (HMM) and deep neural network (DNN)-HMM. Most of existing works assume that we know the transcription of an utterance (the reference sentence) when evaluating the utterance, especially in reading and repeating tasks. To realize a reference-free proficiency evaluation, we propose a novel machine score named as the reference-free error rate (RER) to evaluate English proficiency. In our experiments, the DNN-based non-native acoustic models outperformed the traditional acoustic models on non-native speech recognition. Thus, we calculated the RER by regarding the recognition result from the DNN-based non-native acoustic model as “reference” and the result from the native acoustic model as “recognition result”. The proposed RER has high correlation with human proficiency scores, which indicates the effectiveness of RER for automatically estimating the proficiency. By combining the RER with other machine scores such as the log-likelihood scores, we obtained high correlation (reading aloud task: $r = 0.826, p < 0.001, N = 190$ ; constrained interactive dialogue task: $r = 0.803, p < 0.001, N = 26$ ; spontaneous English conversation task: $r = 0.799, p < 0.001, N = 28$ ) to the human scores.

中文翻译：

基于深度神经网络声学模型的无参考句日语学习者英语能力自动评估

基于语音的计算机辅助语言学习（CALL）系统应以较高的准确性识别学习者的话语，并使用适当的方法评估特定说话者的语言能力。在本文中，我们讨论了针对非母语使用者的第二语言（L2）的自动评估。通过应用发音优度（GOP）方法进行语音评估的现有作品很多。本文介绍了一种自动熟练度评估系统，该系统结合了各种非本地声学模型和本地声学模型，例如高斯混合模型（GMM）-隐马尔可夫模型（HMM）和深层神经网络（DNN）-HMM。现有的大多数作品都假定我们在评估语音时，尤其是在阅读和重复任务中，知道语音的转录（参考句子）。为了实现无参考水平的能力评估，我们提出了一种新颖的机器评分，称为无参考错误率（RER），用于评估英语水平。在我们的实验中，基于DNN的非本地声学模型在非本地语音识别方面优于传统声学模型。因此，我们通过将基于DNN的非本地声学模型的识别结果视为“参考”，并将本地声学模型的结果视为“识别结果”来计算RER。拟议的RER与人类熟练程度评分具有高度相关性，这表明RER在自动估计熟练程度方面的有效性。通过将RER与其他机器评分（例如对数似然评分）相结合，我们获得了很高的相关性（朗读任务：我们提出了一种新颖的机器评分，称为无参考错误率（RER），以评估英语水平。在我们的实验中，基于DNN的非本地声学模型在非本地语音识别方面优于传统声学模型。因此，我们通过将基于DNN的非本地声学模型的识别结果视为“参考”，并将本地声学模型的结果视为“识别结果”来计算RER。拟议的RER与人类熟练程度评分具有高度相关性，这表明RER在自动估计熟练程度方面的有效性。通过将RER与其他机器评分（例如对数似然评分）相结合，我们获得了很高的相关性（朗读任务：我们提出了一种新颖的机器评分，称为无参考错误率（RER），以评估英语水平。在我们的实验中，基于DNN的非本地声学模型在非本地语音识别方面优于传统声学模型。因此，我们通过将基于DNN的非本地声学模型的识别结果视为“参考”，并将本地声学模型的结果视为“识别结果”来计算RER。拟议的RER与人类熟练程度评分具有高度相关性，这表明RER在自动估计熟练程度方面的有效性。通过将RER与其他机器评分（例如对数似然评分）相结合，我们获得了很高的相关性（朗读任务：基于DNN的非本地声学模型在非本地语音识别方面优于传统声学模型。因此，我们通过将基于DNN的非本地声学模型的识别结果视为“参考”，并将本地声学模型的结果视为“识别结果”来计算RER。拟议的RER与人类熟练程度评分具有高度相关性，这表明RER在自动估算熟练程度方面的有效性。通过将RER与其他机器评分（例如对数似然评分）结合起来，我们获得了很高的相关性（朗读任务：基于DNN的非本地声学模型在非本地语音识别方面优于传统声学模型。因此，我们通过将基于DNN的非本地声学模型的识别结果视为“参考”，并将本地声学模型的结果视为“识别结果”来计算RER。拟议的RER与人类熟练程度评分具有高度相关性，这表明RER在自动估算熟练程度方面的有效性。通过将RER与其他机器评分（例如对数似然评分）结合起来，我们获得了很高的相关性（朗读任务：我们通过将基于DNN的非本地声学模型的识别结果作为“参考”，并将本地声学模型的结果作为“识别结果”来计算RER。拟议的RER与人类熟练程度评分具有高度相关性，这表明RER在自动估算熟练程度方面的有效性。通过将RER与其他机器评分（例如对数似然评分）结合起来，我们获得了很高的相关性（朗读任务：我们通过将基于DNN的非本地声学模型的识别结果视为“参考”，并将本地声学模型的结果视为“识别结果”来计算RER。拟议的RER与人类熟练程度评分具有高度相关性，这表明RER在自动估计熟练程度方面的有效性。通过将RER与其他机器评分（例如对数似然评分）结合起来，我们获得了很高的相关性（朗读任务： $[R = 0.826 ， p < 0.001 ， ñ = 190$ ; 受限交互式对话任务： $[R = 0.803 ， p < 0.001 ， ñ = 26$ ; 自发的英语会话任务： $[R = 0.799 ， p < 0.001 ， ñ = 28$ ）到人类的分数。

更新日期：2019-12-23

点击分享查看原文

点击收藏

公开下载

阅读更多本刊最新论文本刊介绍/投稿指南11