我正在研究简单的TTS引擎。最好有一个自动双音素分割系统,它采用录音机声音和音素下标(用于单个话语)并设置声音中的音素边界。 是否可以使用CMU Sphinx?我应该使用哪种版本的狮身人面像?
答案 0 :(得分:2)
您可以使用Sphinxtrain训练特定于您的扬声器的扬声器相关模型。有关培训的更多详细信息,请参阅
http://cmusphinx.sourceforge.net/wiki/tutorialam
要对数据库进行分段,您可以使用sphinx3_align二进制文件,如下所示:
sphinx3_align \
-hmm <model_dir> \
-dict dictionary.dic \
-ctl db.fileids \
-cepdir <feats_folder> \
-cepext .mfc \
-insent db.transcription \
-outsent db.out \
-phlabdir phlabdir
电话级别对齐将在名为phlabdir
的文件夹中创建