当前位置: X-MOL 学术arXiv.cs.SD › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
crank:一种基于矢量量化变分自动编码器的非并行语音转换开源软件
arXiv - CS - Sound Pub Date : 2021-03-04 , DOI: arxiv-2103.02858
Kazuhiro Kobayashi, Wen-Chin Huang, Yi-Chiao Wu, Patrick Lumban Tobing, Tomoki Hayashi, Tomoki Toda

在本文中,我们提出了一种开源软件,用于开发名为crank的非并行语音转换(VC)系统。尽管在上一届VC挑战赛上我们已经发布了基于高斯混合模型sprocket的开源VC软件,但应用任何语音语料库并不是一件容易的事,因为有必要准备源和目标说话者的平行发音以对统计数据进行建模转换功能。为了解决这个问题,在本研究中,我们开发了一种新的开源VC软件,该软件使用户可以仅使用非并行语音语料库来对转换功能进行建模。为了实现VC软件,我们使用了矢量量化的变分自动编码器(VQVAE)。为了快速检查在该研究领域开发的最新技术的有效性,crank还支持基于自动编码器的VC方法的一些代表性作品,例如使用分层体系结构,循环体系结构,生成对抗网络,说话者对抗训练和神经声码器。而且,可以基于MOSNet自动估计诸如梅尔-倒谱失真和伪平均意见得分之类的客观指标。在本文中,我们描述了曲柄中开发的代表性功能,并通过客观评估进行了简要比较。



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug