我是HTK的新手。我想将HMM用于非语音数据,但我没有找到任何好的例子,大多数都是用于语音的例子。
我知道我必须将我的数据功能转换为HTK格式。
我不知道的是,如何配置HTK,因为它使用字典和语法,我不会因为它不是语音而需要我的数据。
有人对此有好的例子或建议吗?
答案 0 :(得分:1)
我最近在基于HTK的OCR上工作,发现这个ICFHR教程非常有帮助(http://transcriptorium.eu/~tutorialICFHR/)。
唯一的区别在于您的功能,因此将HTK书籍用于所有配置就足够了。当然,您需要对某些配置和HMM定义进行一些修改,但GMM-HMM的想法永远不会改变。例如,这是ASR和OCR之间的映射表。
ASR: phone | tri-phone | lexicon [ word : decomposed_phone_sequence ]
OCR: char | tri_char | lexicon [ word : decomposed_char_sequence ]
我的建议是全面阅读HTK书籍并播放一些演示代码。当你第一次使用HTK时,你可能会感到困惑,特别是对于它的命令行参数,但你会在一个月内感到舒服。