Question

我试图为印度重音英语（不是任何印度语言）创建TTS引擎。

我已经拥有印度口音英语的录音数据库。那么接下来的步骤是什么？

我认为我们需要用＆＃34; .lab＆＃34;标记它们。扩展程序文件（我真的不知道它！）。什么是＆＃34; .utts＆＃34;扩展为？

使用HMM实施TTS引擎时，扬声器自适应训练和说话人相关训练的目的是什么？

我搜索了很多内容，但无法找到详细解释。（我只能找到一些与之相关的论文和期刊）

如果您能够提供指向我使用隐藏马尔科夫模型创建自定义TTS的资源链接，那将非常有用。

谢谢。

Answer 1

Festival是一个很好的拼接语音合成工具，它也使用HMM HTS是另一个很好的基于HMM的合成器。

.lab 或 .phn 文件是标签文件，其中每个单词被分成带有音频对应时间戳的音素。例如对于包含单词＆＃34的音频文件;此＆＃34;，标签文件可以是：

0.28 0.35 sil
0.35 0.42 dh
0.42 0.5 i
0.5 0.61 s

其中数字是音素发音的开始和结束时间，以秒为单位。

.utt 是在所有信息（如压力，词性，语调，语音持续时间等）被考虑之后形成的话语文件。然后可以将这些文件用于语音输出（播放话语）

合成的语音质量取决于用于训练的音频集。扬声器自适应训练使模型适应不同的声音和口音/方言的扬声器。在针对不同声音的演讲者依赖训练的情况下训练单独的模型。

您可以浏览Festival Manual以了解如何设置语音合成管道。节日与HTS一起使用节日用于前端文本分析（创建字典，单词到音素等），而HTS用于基于HMM的语音建模。