如何使用多种功能,如音高,共振峰,微光和抖动,使用HTK工具包代替MFCC训练HMM?

时间:2014-08-16 05:31:19

标签: speech-recognition speech-to-text speech

我正在尝试使用HMM开发一个音符转录系统。为此,我使用的是HTK Toolkit。我想使用不同的功能,如音调,共振峰,闪光和抖动,而不是MFCC。

如何创建上述功能的特征向量来训练HTK中的HMM,以便提高系统的性能?

1 个答案:

答案 0 :(得分:1)

此问题已在HTK论坛和邮件列表中多次涵盖,您可以搜索更多详细信息。

基本上,您需要首先为某个表单中的每个帧创建您的功能,例如在文本表中。然后,您可以使用C代码或Matlab代码将这些值转换为二进制HTK格式。 C代码不是很复杂,但需要您了解HTK二进制格式。例如,您可以在以下位置查看详细代码:

http://blog.jamesrossiter.co.uk/2008/11/16/converting-csv-and-vector-data-to-native-htk-format-using-c/

http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/doc/voicebox/writehtk.html