Question

大家好。 ~~（开始这句话可以吗？）~~

我尝试用HTK工具模拟语音（单词）识别我有* .wav文件。
有些文件的采样率为16KHz，有些文件的采样率为44.1KHz。

我制作关于每个采样率的mfcc文件但是，我使用所有（16KHz和44.1KHz）的mfcc文件制作HMM模型。

d = {}

for k,v in exp_dict.items():
    d[k] = []
    ind = v['line_nm'][0]
    for i, j in enumerate(v['line_nm']):
        if not any(x in j for x in ind): 
            d[k].append(i)
            ind = v['line_nm'][i]

print d

# which outputs the following for exp_dict:
# {0: [10, 15, 18], 
#  1: [2, 5]}

使用不同的采样率制作HMM模型是否可以？

我当然应该知道信息，而不是建议。

感谢阅读。

Answer 1

我建议你只采用一个采样率。它会工作，但准确性会发生变化，您还需要更改MFCC配置文件中的配置详细信息。将44.1KHz文件降级到16KHz非常容易。

HTK工具和采样率

1 个答案: