text-to-speech - 基于多人语料库的语音合成

基于多人语料库的语音合成

时间：2019-02-18 15:52:24

标签： text-to-speech voice

作为项目的一部分，我们希望使用合成语音进行实验，而这些合成语音没有单一的地理起源，身材，年龄或性别。我们有自己的数据集，但是我在使用VCTK进行初始实验时就想到了，并使用Tacotron2或类似工具构建声音。有谁知道类似的项目是否已经完成？我们想象的与声音相连的身体是故意模棱两可的。还是在多人语料库上训练过TTS的其他项目？另外，有人知道这种方法有什么警告或潜在的问题吗？也许有一些与转移学习合作的方法可能是有益的。

谢谢！

1 个答案:

答案 0 :(得分：0)

您可以选中https://github.com/r9y9/deepvoice3_pytorch

多扬声器示例是available以及可以尝试的预训练模型。

从哪里开始语音合成
在C＃中使用多线程时如何实现“等待”状态
文本到语音和附带的元数据
SpeechSynthesisUtterance使用除本地
语音合成API支持的语言
从人类语音中获取共振峰设置（例如f1，f2，f3 ..频率，带宽等）
获得语音合成计算机语音的振幅？
基于浏览器的SpeechSynthesis：如何生成字母声音而不是单词？
基于多人语料库的语音合成
为什么有时在基于Chromium的浏览器中，SpeechSynthesisUtterance不会触发“结束”事件？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？