大家好。 (开始这句话可以吗?)
我尝试用HTK工具模拟语音(单词)识别
我有* .wav文件。
有些文件的采样率为16KHz,有些文件的采样率为44.1KHz。
我制作关于每个采样率的mfcc文件 但是,我使用所有(16KHz和44.1KHz)的mfcc文件制作HMM模型。
d = {}
for k,v in exp_dict.items():
d[k] = []
ind = v['line_nm'][0]
for i, j in enumerate(v['line_nm']):
if not any(x in j for x in ind):
d[k].append(i)
ind = v['line_nm'][i]
print d
# which outputs the following for exp_dict:
# {0: [10, 15, 18],
# 1: [2, 5]}
使用不同的采样率制作HMM模型是否可以?
我当然应该知道信息,而不是建议。
感谢阅读。
答案 0 :(得分:1)
我建议你只采用一个采样率。它会工作,但准确性会发生变化,您还需要更改MFCC配置文件中的配置详细信息。将44.1KHz文件降级到16KHz非常容易。