应用错误收集

如何使用多种功能，如音高，共振峰，微光和抖动，使用HTK工具包代替MFCC训练HMM？

时间：2014-08-16 05:31:19

标签： speech-recognition speech-to-text speech

我正在尝试使用HMM开发一个音符转录系统。为此，我使用的是HTK Toolkit。我想使用不同的功能，如音调，共振峰，闪光和抖动，而不是MFCC。

如何创建上述功能的特征向量来训练HTK中的HMM，以便提高系统的性能？

1 个答案:

答案 0 :(得分：1)

此问题已在HTK论坛和邮件列表中多次涵盖，您可以搜索更多详细信息。

基本上，您需要首先为某个表单中的每个帧创建您的功能，例如在文本表中。然后，您可以使用C代码或Matlab代码将这些值转换为二进制HTK格式。 C代码不是很复杂，但需要您了解HTK二进制格式。例如，您可以在以下位置查看详细代码：

http://blog.jamesrossiter.co.uk/2008/11/16/converting-csv-and-vector-data-to-native-htk-format-using-c/

http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/doc/voicebox/writehtk.html