TensorFlow声音识别

时间:2019-09-11 18:23:17

标签: python tensorflow machine-learning tensorflow-datasets

我正在制作自己的TensorFlow audio recognition示例版本,以识别某些声音效果而不是语音。 在训练模型进行声音识别时出现以下错误:

  

2019-09-11 19:16:38.221677:E   tensorflow / core / kernels / mfcc_mel_filterbank.cc:153]缺少5个波段   在mel-frequency设计中从0开始。也许太多渠道或   频谱的频率分辨率不足。 (input_length:257   input_sample_rate:44100 output_channel_count:40   lower_frequency_limit:20 upper_frequency_limit:4000

您能否解释一下这意味着什么,以及我该如何解决该问题?我的音频片段长约1秒,为44.1khz,并且为立体声。

非常感谢!

1 个答案:

答案 0 :(得分:0)

问题是该示例期望音频文件的采样率为16000khz,但是我提供了44100khz文件。

我通过添加以下标志解决了该问题:

--sample_rate=44100