我使用来自维基百科转储的数据构建了语言泰米尔语言模型,使用工具CMUCLMTK。现在,如何生成动态转录并在模型中替换它们。维基文章(http://cmusphinx.sourceforge.net/wiki/phonemerecognition)说替换转录而不是单词。我现在应该做什么?
答案 0 :(得分:1)
您可以编写一个python脚本来用其音素替换字符。英语中大约有44个音素,你可以简单地创建一个字典,将一个字符映射到它的音素。要将您的转录转换为音素,只需将每个单词分解为字符,然后通过匹配字典中的字符替换其音素。您可以使用术语频率或tf-idf
使这更有趣