如何使用tensorflow-wavenet

时间:2017-01-16 14:54:01

标签: tensorflow

我正在尝试使用tensorflow-wavenet程序进行文字对话。

以下是步骤:

  1. 下载Tensorflow
  2. 下载librosa
  3. 安装要求pip install -r requirements.txt
  4. 下载语料库并将其放入名为“corpus”的目录
  5. 训练机器python train.py --data_dir=corpus
  6. 生成音频python generate.py --wav_out_path=generated.wav --samples 16000 model.ckpt-1000
  7. 执行此操作后,如何生成文本文件的语音读取?

3 个答案:

答案 0 :(得分:4)

根据tensorflow-wavenet page

  

目前,没有关于额外信息的本地条件,这些信息将允许上下文堆栈或控制生成的语音。

您可以通过阅读存储库中的问题找到有关项目当前开发的更多信息(local conditioning is a desired feature!

Wavenet论文将Wavenet与两个TTS基线进行比较,其中一个基线似乎具有在线培训代码:http://hts.sp.nitech.ac.jp

答案 1 :(得分:2)

DeepMind最近的一篇论文描述了一种使用WaveNet从文本转到语音的方法,我没有尝试过这种方法,但至少说明了他们使用的方法:他们首先训练一个网络来预测文本中的频谱图,然后训练WaveNet使用相同类型的频谱图作为附加条件输入来产生语音。这是一个很好的主意,特别是因为您可以在一些庞大的纯语音数据库上训练WaveNet部分,您可以为其提取频谱图,然后使用不同的数据集训练文本到频谱图部分。有文字。

https://google.github.io/tacotron/publications/tacotron2/index.html有论文和一些示例输出。

光谱图预测部分似乎有一堆不直观的工程(毫无疑问是因为文本 - 时间学习的本质),但至少在论文中有一些细节。数据集是专有的,所以我不知道使用其他数据集得到任何结果有多难。

答案 2 :(得分:0)

对于可能遇到此问题的人,有一个新的python实现ForwardTacotron,可轻松实现文本到语音转换。