当前位置:
X-MOL 学术
›
Corpus Linguistics and Linguistic Theory
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
The Information Structure–prosody interface in text-to-speech technologies. An empirical perspective
Corpus Linguistics and Linguistic Theory ( IF 2.143 ) Pub Date : 2021-01-28 , DOI: 10.1515/cllt-2020-0008 Mónica Domínguez 1 , Mireia Farrús 2 , Leo Wanner 1, 3
Corpus Linguistics and Linguistic Theory ( IF 2.143 ) Pub Date : 2021-01-28 , DOI: 10.1515/cllt-2020-0008 Mónica Domínguez 1 , Mireia Farrús 2 , Leo Wanner 1, 3
Affiliation
Abstract The correspondence between the communicative intention of a speaker in terms of Information Structure and the way this speaker reflects communicative aspects by means of prosody have been a fruitful field of study in Linguistics. However, text-to-speech applications still lack the variability and richness found in human speech in terms of how humans display their communication skills. Some attempts were made in the past to model one aspect of Information Structure, namely thematicity for its application to intonation generation in text-to-speech technologies. Yet, these applications suffer from two limitations: (i) they draw upon a small number of made-up simple question-answer pairs rather than on real (spoken or written) corpus material; and (ii) they do not explore whether any other interpretation would better suit a wider range of textual genres beyond dialogs. In this paper, two different interpretations of thematicity in the field of speech technologies are examined: the state-of-art binary (and flat) theme-rheme, and the hierarchical thematicity defined by Igor Mel’čuk within the Meaning-Text Theory. The outcome of the experiments on a corpus of native speakers of US English suggests that the latter interpretation of thematicity has a versatile implementation potential for text-to-speech applications of the Information Structure–prosody interface.
中文翻译:
文本到语音技术中的信息结构-韵律界面。经验观点
摘要 说话人在信息结构方面的交际意图与说话人通过韵律反映交际方面的方式之间的对应关系一直是语言学的一个富有成果的研究领域。然而,就人类如何展示其沟通技巧而言,文本转语音应用程序仍然缺乏人类语音中的可变性和丰富性。过去曾尝试对信息结构的一个方面进行建模,即在文本到语音技术中将其应用于语调生成的主题性。然而,这些应用程序受到两个限制:(i)它们利用少量的简单问答对,而不是真实(口头或书面)语料库材料;(ii) 他们没有探索是否有任何其他解释更适合对话之外的更广泛的文本类型。在本文中,研究了语音技术领域对主题性的两种不同解释:最先进的二元(和扁平)主题词位,以及由 Igor Mel'čuk 在意义文本理论中定义的层次主题性。在以美国英语为母语的语料库上的实验结果表明,后一种对主题性的解释对于信息结构-韵律接口的文本到语音应用具有广泛的实现潜力。以及由 Igor Mel'čuk 在意义文本理论中定义的层次主题性。在以美国英语为母语的语料库上的实验结果表明,后一种对主题性的解释对于信息结构-韵律接口的文本到语音应用具有广泛的实现潜力。以及由 Igor Mel'čuk 在意义文本理论中定义的层次主题性。在以美国英语为母语的语料库上的实验结果表明,后一种对主题性的解释对于信息结构-韵律接口的文本到语音应用具有广泛的实现潜力。
更新日期:2021-01-28
中文翻译:
文本到语音技术中的信息结构-韵律界面。经验观点
摘要 说话人在信息结构方面的交际意图与说话人通过韵律反映交际方面的方式之间的对应关系一直是语言学的一个富有成果的研究领域。然而,就人类如何展示其沟通技巧而言,文本转语音应用程序仍然缺乏人类语音中的可变性和丰富性。过去曾尝试对信息结构的一个方面进行建模,即在文本到语音技术中将其应用于语调生成的主题性。然而,这些应用程序受到两个限制:(i)它们利用少量的简单问答对,而不是真实(口头或书面)语料库材料;(ii) 他们没有探索是否有任何其他解释更适合对话之外的更广泛的文本类型。在本文中,研究了语音技术领域对主题性的两种不同解释:最先进的二元(和扁平)主题词位,以及由 Igor Mel'čuk 在意义文本理论中定义的层次主题性。在以美国英语为母语的语料库上的实验结果表明,后一种对主题性的解释对于信息结构-韵律接口的文本到语音应用具有广泛的实现潜力。以及由 Igor Mel'čuk 在意义文本理论中定义的层次主题性。在以美国英语为母语的语料库上的实验结果表明,后一种对主题性的解释对于信息结构-韵律接口的文本到语音应用具有广泛的实现潜力。以及由 Igor Mel'čuk 在意义文本理论中定义的层次主题性。在以美国英语为母语的语料库上的实验结果表明,后一种对主题性的解释对于信息结构-韵律接口的文本到语音应用具有广泛的实现潜力。