当前位置: X-MOL 学术Int. J. Pattern Recognit. Artif. Intell. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
PFHTS-IDSS: A Hybrid HTS-based Framework for Indonesian Speech Synthesis via Phoneme and Full-context Lab
International Journal of Pattern Recognition and Artificial Intelligence ( IF 1.5 ) Pub Date : 2020-11-19 , DOI: 10.1142/s0218001421580040
Zhenfeng Lei 1 , Junjun Zhai 2 , Juntao Chen 3 , Wenhao Liu 4 , Shuangyuan Yang 1 , Anwar ul Haq 1
Affiliation  

In recent years, globalization has highlighted the importance of having machines that can truly provide customized communication for different languages. Majority of the research in the field focus on developing technologies for widely used languages such as English. In this study, we apply HMM-based speech synthesis (HTS) technology for Indonesian language. The proposed hybrid HTS-based framework, PFHTS-IDSS, uses phoneme and full-context lab to synthesize Indonesian with higher accuracy. First, we identify a list of Indonesian phonemes according to the initial-final structure of Chinese language. Based on this, we add zero-initials that match the Indonesian acoustic performance and HTS, which can make the synthesized speech natural and smooth. Second, we consider Indonesian phonemes as synthetic units to synthesize speech through the triphone and full-context lab. In addition, we design context properties of the full-context lab and the corresponding question set to train the acoustic model, which can eliminate machine sounds. Experimental results suggest that the accuracy of phoneme segmentation (PSA) and the naturalness of speech synthesis (SSN) are significantly improved via PFHTS-IDSS. Especially, the PSA of selecting phonemes as synthetic units reaches 88.3% and the corresponding SSN based on full-context lab is 4.1. The results demonstrated by PFHTS-IDSS presented in this paper may be used in multilingual free interactive system to promote better communication in terms of voice navigation, intelligent speaker and question-answering system.

中文翻译:

PFHTS-IDSS:基于混合 HTS 的印度尼西亚语音合成框架,通过音素和全上下文实验室

近年来,全球化凸显了拥有能够真正为不同语言提供定制通信的机器的重要性。该领域的大部分研究都集中在开发广泛使用的语言(如英语)的技术。在这项研究中,我们将基于 HMM 的语音合成 (HTS) 技术应用于印度尼西亚语。所提出的基于混合 HTS 的框架 PFHTS-IDSS 使用音素和全上下文实验室以更高的准确度合成印尼语。首先,我们根据汉语的初始-最终结构识别印度尼西亚音素列表。在此基础上,我们添加了与印尼声学性能和 HTS 相匹配的零声母,可以使合成的语音自然流畅。第二,我们将印尼音素视为合成单元,通过三音素和全上下文实验室合成语音。此外,我们设计了全上下文实验室的上下文属性和相应的问题集来训练声学模型,可以消除机器声音。实验结果表明,通过 PFHTS-IDSS 显着提高了音素分割 (PSA) 的准确性和语音合成的自然度 (SSN)。尤其是选择音素作为合成单元的PSA达到88.3%,对应的基于全上下文实验室的SSN为4.1。本文提出的 PFHTS-IDSS 所展示的结果可用于多语言自由交互系统,以促进语音导航、智能扬声器和问答系统方面的更好沟通。我们设计了全上下文实验室的上下文属性和相应的问题集来训练声学模型,可以消除机器声音。实验结果表明,通过 PFHTS-IDSS 显着提高了音素分割 (PSA) 的准确性和语音合成的自然度 (SSN)。尤其是选择音素作为合成单元的PSA达到88.3%,对应的基于全上下文实验室的SSN为4.1。本文提出的 PFHTS-IDSS 所展示的结果可用于多语言自由交互系统,以促进语音导航、智能扬声器和问答系统方面的更好沟通。我们设计了全上下文实验室的上下文属性和相应的问题集来训练声学模型,可以消除机器声音。实验结果表明,通过 PFHTS-IDSS 显着提高了音素分割 (PSA) 的准确性和语音合成的自然度 (SSN)。尤其是选择音素作为合成单元的PSA达到88.3%,对应的基于全上下文实验室的SSN为4.1。本文提出的 PFHTS-IDSS 所展示的结果可用于多语言自由交互系统,以促进语音导航、智能扬声器和问答系统方面的更好沟通。实验结果表明,通过 PFHTS-IDSS 显着提高了音素分割 (PSA) 的准确性和语音合成的自然度 (SSN)。尤其是选择音素作为合成单元的PSA达到88.3%,对应的基于全上下文实验室的SSN为4.1。本文提出的 PFHTS-IDSS 所展示的结果可用于多语言自由交互系统,以促进语音导航、智能扬声器和问答系统方面的更好沟通。实验结果表明,通过 PFHTS-IDSS 显着提高了音素分割 (PSA) 的准确性和语音合成的自然度 (SSN)。尤其是选择音素作为合成单元的PSA达到88.3%,对应的基于全上下文实验室的SSN为4.1。本文提出的 PFHTS-IDSS 所展示的结果可用于多语言自由交互系统,以促进语音导航、智能扬声器和问答系统方面的更好沟通。
更新日期:2020-11-19
down
wechat
bug