基于多人语料库的语音合成

时间:2019-02-18 15:52:24

标签: text-to-speech voice

作为项目的一部分,我们希望使用合成语音进行实验,而这些合成语音没有单一的地理起源,身材,年龄或性别。我们有自己的数据集,但是我在使用VCTK进行初始实验时就想到了,并使用Tacotron2或类似工具构建声音。有谁知道类似的项目是否已经完成?我们想象的与声音相连的身体是故意模棱两可的。还是在多人语料库上训练过TTS的其他项目?另外,有人知道这种方法有什么警告或潜在的问题吗?也许有一些与转移学习合作的方法可能是有益的。

谢谢!

1 个答案:

答案 0 :(得分:0)

您可以选中https://github.com/r9y9/deepvoice3_pytorch

多扬声器示例是available以及可以尝试的预训练模型。