当前位置:
X-MOL 学术
›
arXiv.cs.SD
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
crank: An Open-Source Software for Nonparallel Voice Conversion Based on Vector-Quantized Variational Autoencoder
arXiv - CS - Sound Pub Date : 2021-03-04 , DOI: arxiv-2103.02858 Kazuhiro Kobayashi, Wen-Chin Huang, Yi-Chiao Wu, Patrick Lumban Tobing, Tomoki Hayashi, Tomoki Toda
arXiv - CS - Sound Pub Date : 2021-03-04 , DOI: arxiv-2103.02858 Kazuhiro Kobayashi, Wen-Chin Huang, Yi-Chiao Wu, Patrick Lumban Tobing, Tomoki Hayashi, Tomoki Toda
In this paper, we present an open-source software for developing a
nonparallel voice conversion (VC) system named crank. Although we have released
an open-source VC software based on the Gaussian mixture model named sprocket
in the last VC Challenge, it is not straightforward to apply any speech corpus
because it is necessary to prepare parallel utterances of source and target
speakers to model a statistical conversion function. To address this issue, in
this study, we developed a new open-source VC software that enables users to
model the conversion function by using only a nonparallel speech corpus. For
implementing the VC software, we used a vector-quantized variational
autoencoder (VQVAE). To rapidly examine the effectiveness of recent
technologies developed in this research field, crank also supports several
representative works for autoencoder-based VC methods such as the use of
hierarchical architectures, cyclic architectures, generative adversarial
networks, speaker adversarial training, and neural vocoders. Moreover, it is
possible to automatically estimate objective measures such as mel-cepstrum
distortion and pseudo mean opinion score based on MOSNet. In this paper, we
describe representative functions developed in crank and make brief comparisons
by objective evaluations.
中文翻译:
crank:一种基于矢量量化变分自动编码器的非并行语音转换开源软件
在本文中,我们提出了一种开源软件,用于开发名为crank的非并行语音转换(VC)系统。尽管在上一届VC挑战赛上我们已经发布了基于高斯混合模型sprocket的开源VC软件,但应用任何语音语料库并不是一件容易的事,因为有必要准备源和目标说话者的平行发音以对统计数据进行建模转换功能。为了解决这个问题,在本研究中,我们开发了一种新的开源VC软件,该软件使用户可以仅使用非并行语音语料库来对转换功能进行建模。为了实现VC软件,我们使用了矢量量化的变分自动编码器(VQVAE)。为了快速检查在该研究领域开发的最新技术的有效性,crank还支持基于自动编码器的VC方法的一些代表性作品,例如使用分层体系结构,循环体系结构,生成对抗网络,说话者对抗训练和神经声码器。而且,可以基于MOSNet自动估计诸如梅尔-倒谱失真和伪平均意见得分之类的客观指标。在本文中,我们描述了曲柄中开发的代表性功能,并通过客观评估进行了简要比较。
更新日期:2021-03-05
中文翻译:
crank:一种基于矢量量化变分自动编码器的非并行语音转换开源软件
在本文中,我们提出了一种开源软件,用于开发名为crank的非并行语音转换(VC)系统。尽管在上一届VC挑战赛上我们已经发布了基于高斯混合模型sprocket的开源VC软件,但应用任何语音语料库并不是一件容易的事,因为有必要准备源和目标说话者的平行发音以对统计数据进行建模转换功能。为了解决这个问题,在本研究中,我们开发了一种新的开源VC软件,该软件使用户可以仅使用非并行语音语料库来对转换功能进行建模。为了实现VC软件,我们使用了矢量量化的变分自动编码器(VQVAE)。为了快速检查在该研究领域开发的最新技术的有效性,crank还支持基于自动编码器的VC方法的一些代表性作品,例如使用分层体系结构,循环体系结构,生成对抗网络,说话者对抗训练和神经声码器。而且,可以基于MOSNet自动估计诸如梅尔-倒谱失真和伪平均意见得分之类的客观指标。在本文中,我们描述了曲柄中开发的代表性功能,并通过客观评估进行了简要比较。