当前位置: X-MOL 学术EURASIP J. Audio Speech Music Proc. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Punctuation-generation-inspired linguistic features for Mandarin prosody generation
EURASIP Journal on Audio, Speech, and Music Processing ( IF 1.7 ) Pub Date : 2019-02-21 , DOI: 10.1186/s13636-019-0147-y
Chen-Yu Chiang , Yu-Ping Hung , Han-Yun Yeh , I-Bin Liao , Chen-Ming Pan

This paper proposes two novel linguistic features extracted from text input for prosody generation in a Mandarin text-to-speech system. The first feature is the punctuation confidence (PC), which measures the likelihood that a major punctuation mark (MPM) can be inserted at a word boundary. The second feature is the quotation confidence (QC), which measures the likelihood that a word string is quoted as a meaningful or emphasized unit. The proposed PC and QC features are influenced by the properties of automatic Chinese punctuation generation and linguistic characteristic of the Chinese punctuation system. Because MPMs are highly correlated with prosodic–acoustic features and quoted word strings serve crucial roles in human language understanding, the two features could potentially provide useful information for prosody generation. This idea was realized by employing conditional random-field-based models for predicting MPMs, quoted word string locations, and their associated confidences—that is, PC and QC—for each word boundary. The predicted punctuations and their confidences were then combined with traditional linguistic features to predict prosodic–acoustic features for performing speech synthesis using multilayer perceptrons. Both objective and subjective tests demonstrated that the prosody generated with the proposed linguistic features was superior to that generated without the proposed features. Therefore, the proposed PC and QC are identified as promising features for Mandarin prosody generation.

中文翻译:

普通话韵律生成的标点生成启发语言特征

本文提出了两种从文本输入中提取的新语言特征,用于普通话文本到语音系统中的韵律生成。第一个特征是标点符号置信度 (PC),它衡量可以在单词边界插入主要标点符号 (MPM) 的可能性。第二个特征是引用置信度 (QC),它衡量一个词串被引用为有意义或强调的单元的可能性。所提出的 PC 和 QC 特征受自动中文标点符号生成的特性和中文标点符号系统的语言特征的影响。由于 MPM 与韵律 - 声学特征高度相关,并且引用的词串在人类语言理解中起着至关重要的作用,因此这两个特征可能为韵律生成提供有用的信息。这个想法是通过使用基于条件随机场的模型来实现的,用于预测每个词边界的 MPM、引用的字串位置及其相关的置信度(即 PC 和 QC)。然后将预测的标点符号及其置信度与传统的语言特征相结合,以预测韵律 - 声学特征,以使用多层感知器进行语音合成。客观和主观测试都表明,使用提出的语言特征生成的韵律优于没有提出的特征生成的韵律。因此,提出的 PC 和 QC 被确定为普通话韵律生成的有希望的特征。PC 和 QC——针对每个字边界。然后将预测的标点符号及其置信度与传统的语言特征相结合,以预测韵律 - 声学特征,以使用多层感知器进行语音合成。客观和主观测试都表明,使用提出的语言特征生成的韵律优于没有提出的特征生成的韵律。因此,提出的 PC 和 QC 被确定为普通话韵律生成的有希望的特征。PC 和 QC——针对每个字边界。然后将预测的标点符号及其置信度与传统的语言特征相结合,以预测韵律 - 声学特征,以使用多层感知器进行语音合成。客观和主观测试都表明,使用提出的语言特征生成的韵律优于没有提出的特征生成的韵律。因此,提出的 PC 和 QC 被确定为普通话韵律生成的有希望的特征。客观和主观测试都表明,使用提出的语言特征生成的韵律优于没有提出的特征生成的韵律。因此,提出的 PC 和 QC 被确定为普通话韵律生成的有希望的特征。客观和主观测试都表明,使用提出的语言特征生成的韵律优于没有提出的特征生成的韵律。因此,提出的 PC 和 QC 被确定为普通话韵律生成的有希望的特征。
更新日期:2019-02-21
down
wechat
bug