当前位置: X-MOL 学术arXiv.cs.SD › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
利用广播数据与背景音乐混合的神经文本语音转换模型
arXiv - CS - Sound Pub Date : 2021-03-04 , DOI: arxiv-2103.03049
Hanbin Bae, Jae-Sung Bae, Young-Sun Joo, Young-Ik Kim, Hoon-Young Cho

最近,从诸如互联网或YouTube之类的各种媒体获取语音数据变得更加容易,但是直接利用它们来训练神经文本语音转换(TTS)模型却变得困难。干净语音的比例不足,其余包括背景音乐。即使具有全局样式标记(GST)。因此,我们提出以下方法来成功地训练具有有限广播数据的端到端TTS模型。首先,通过引入音乐过滤器将背景音乐从语音中删除。其次,使用过滤后的语音和少量干净语音训练带有辅助质量分类器的GST-TTS模型。特别地,质量分类器使GST层的嵌入矢量集中于表示输入语音的语音质量(已过滤或纯净)。



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug