Question

我正在制作自己的TensorFlow audio recognition示例版本，以识别某些声音效果而不是语音。在训练模型进行声音识别时出现以下错误：

2019-09-11 19：16：38.221677：E tensorflow / core / kernels / mfcc_mel_filterbank.cc：153]缺少5个波段在mel-frequency设计中从0开始。也许太多渠道或频谱的频率分辨率不足。（input_length：257 input_sample_rate：44100 output_channel_count：40 lower_frequency_limit：20 upper_frequency_limit：4000

您能否解释一下这意味着什么，以及我该如何解决该问题？我的音频片段长约1秒，为44.1khz，并且为立体声。

非常感谢！

Answer 1

问题是该示例期望音频文件的采样率为16000khz，但是我提供了44100khz文件。

我通过添加以下标志解决了该问题：

--sample_rate=44100

TensorFlow声音识别

1 个答案: