我试图为印度重音英语(不是任何印度语言)创建TTS引擎。
我已经拥有印度口音英语的录音数据库。那么接下来的步骤是什么?
我认为我们需要用" .lab"标记它们。扩展程序文件(我真的不知道它!)。什么是" .utts"扩展为?
使用HMM实施TTS引擎时,扬声器自适应训练和说话人相关训练的目的是什么?
我搜索了很多内容,但无法找到详细解释。 (我只能找到一些与之相关的论文和期刊)
如果您能够提供指向我使用隐藏马尔科夫模型创建自定义TTS的资源链接,那将非常有用。
谢谢。
答案 0 :(得分:1)
Festival是一个很好的拼接语音合成工具,它也使用HMM HTS是另一个很好的基于HMM的合成器。
.lab 或 .phn 文件是标签文件,其中每个单词被分成带有音频对应时间戳的音素。例如 对于包含单词&#34的音频文件;此",标签文件可以是:
0.28 0.35 sil
0.35 0.42 dh
0.42 0.5 i
0.5 0.61 s
其中数字是音素发音的开始和结束时间,以秒为单位。
.utt 是在所有信息(如压力,词性,语调,语音持续时间等)被考虑之后形成的话语文件。然后可以将这些文件用于语音输出(播放话语)
合成的语音质量取决于用于训练的音频集。扬声器自适应训练使模型适应不同的声音和口音/方言的扬声器。在针对不同声音的演讲者依赖训练的情况下训练单独的模型。
您可以浏览Festival Manual以了解如何设置语音合成管道。节日与HTS一起使用节日用于前端文本分析(创建字典,单词到音素等),而HTS用于基于HMM的语音建模。