利用广播数据与背景音乐混合的神经文本语音转换模型,arXiv - CS - Sound - X-MOL

当前位置： X-MOL 学术 › arXiv.cs.SD › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

利用广播数据与背景音乐混合的神经文本语音转换模型
arXiv - CS - Sound Pub Date : 2021-03-04 , DOI: arxiv-2103.03049
Hanbin Bae, Jae-Sung Bae, Young-Sun Joo, Young-Ik Kim, Hoon-Young Cho

最近，从诸如互联网或YouTube之类的各种媒体获取语音数据变得更加容易，但是直接利用它们来训练神经文本语音转换（TTS）模型却变得困难。干净语音的比例不足，其余包括背景音乐。即使具有全局样式标记（GST）。因此，我们提出以下方法来成功地训练具有有限广播数据的端到端TTS模型。首先，通过引入音乐过滤器将背景音乐从语音中删除。其次，使用过滤后的语音和少量干净语音训练带有辅助质量分类器的GST-TTS模型。特别地，质量分类器使GST层的嵌入矢量集中于表示输入语音的语音质量（已过滤或纯净）。

"点击查看英文标题和摘要"

更新日期：2021-03-05

点击分享查看原文

点击收藏

阅读更多本刊最新论文

相关文章参考文献引文

点击加载相关文章

全部期刊列表>>

阿拉丁

英语语言编辑翻译加编辑

专注于基础生命科学与临床研究的交叉领域

遥感数据采集

数字地球

开学添书香，满额有好礼

加速出版服务

编辑润色服务全线九折优惠

传播分子、细胞和发育生物学领域的重大发现

环境管理资源效率浪费最小化

先进材料生物材料

聚焦分子细胞和生物体生物学

“转化老年科学”.正在征稿

化学工程

wiley你是哪种学术人格

细胞生物学

100+材料学期刊

人工智能新刊

图书出版流程

征集眼内治疗给药新技术

英语语言编辑服务

快速找到合适的投稿机会

动态系统的数学与计算机建模

热点论文一站获取

定位全球科研英才

中国图象图形学学会合作刊

东北石油大学合作期刊

动物源性食品遗传学与育种

专业英语编辑服务

中科大

华盛顿

上海交大

中山大学

西湖大学

药物所

普渡大学

东方理工

ACS材料视界

客服邮箱：service@x-mol.com
官方微信：X-molTeam2
邮编：100098
地址：北京市海淀区知春路56号中航科技大厦

bug