我正在制作自己的TensorFlow audio recognition示例版本,以识别某些声音效果而不是语音。 在训练模型进行声音识别时出现以下错误:
2019-09-11 19:16:38.221677:E tensorflow / core / kernels / mfcc_mel_filterbank.cc:153]缺少5个波段 在mel-frequency设计中从0开始。也许太多渠道或 频谱的频率分辨率不足。 (input_length:257 input_sample_rate:44100 output_channel_count:40 lower_frequency_limit:20 upper_frequency_limit:4000
您能否解释一下这意味着什么,以及我该如何解决该问题?我的音频片段长约1秒,为44.1khz,并且为立体声。
非常感谢!
答案 0 :(得分:0)
问题是该示例期望音频文件的采样率为16000khz,但是我提供了44100khz文件。
我通过添加以下标志解决了该问题:
--sample_rate=44100