我正在尝试使用tensorflow-wavenet程序进行文字对话。
以下是步骤:
pip install -r requirements.txt
python train.py --data_dir=corpus
python generate.py --wav_out_path=generated.wav --samples 16000 model.ckpt-1000
执行此操作后,如何生成文本文件的语音读取?
答案 0 :(得分:4)
目前,没有关于额外信息的本地条件,这些信息将允许上下文堆栈或控制生成的语音。
您可以通过阅读存储库中的问题找到有关项目当前开发的更多信息(local conditioning is a desired feature!)
Wavenet论文将Wavenet与两个TTS基线进行比较,其中一个基线似乎具有在线培训代码:http://hts.sp.nitech.ac.jp
答案 1 :(得分:2)
DeepMind最近的一篇论文描述了一种使用WaveNet从文本转到语音的方法,我没有尝试过这种方法,但至少说明了他们使用的方法:他们首先训练一个网络来预测文本中的频谱图,然后训练WaveNet使用相同类型的频谱图作为附加条件输入来产生语音。这是一个很好的主意,特别是因为您可以在一些庞大的纯语音数据库上训练WaveNet部分,您可以为其提取频谱图,然后使用不同的数据集训练文本到频谱图部分。有文字。
https://google.github.io/tacotron/publications/tacotron2/index.html有论文和一些示例输出。
光谱图预测部分似乎有一堆不直观的工程(毫无疑问是因为文本 - 时间学习的本质),但至少在论文中有一些细节。数据集是专有的,所以我不知道使用其他数据集得到任何结果有多难。
答案 2 :(得分:0)
对于可能遇到此问题的人,有一个新的python实现ForwardTacotron,可轻松实现文本到语音转换。