machine-learning - 音频样本应该用于音乐/语音识别多长时间？

音频样本应该用于音乐/语音识别多长时间？

时间：2017-03-02 14:45:39

标签： machine-learning classification convolution spectrogram

我正在开发一个卷积神经网络，使用audio spectrogram

来GTZAN dataset区分音乐和语音

如果单个样本较短，则总体上会提供更多样本。但如果样本太短，那么它们可能缺乏重要的特征吗？

识别一段音频是音乐还是语音需要多少数据？

音频样本应该在多长时间内完成？

2 个答案:

答案 0 :(得分：2)

音频的长度因因素而异。

基本的想法是获得足够的样本由于音频不断变化，因此最好使用较短的数据。但是，非常小的帧会导致捕获的特征较少/没有。

另一方面，非常大的样本会捕获太多特征，从而导致复杂性。因此，在大多数用例中，虽然理想的音频长度 25秒，但它不是书面规则，您可以相应地操作它。只需确保帧大小不是很小或非常大。 / p>

更新数据集 查看{30}数据集的this链接

答案 1 :(得分：1)

识别一段音频是音乐还是语音需要多少数据？

如果有人确切知道这个问题的答案，那么问题就会解决:) 但严重的是，这取决于您的下游应用程序。想象一下，尝试区分语音与背景音乐与acapella唱歌（硬）或分类管弦乐和音频书籍（简单）。

音频样本应该在多长时间内完成？

与机器学习中的所有内容一样，它取决于应用程序。对你而言，我会说测试至少10秒，20秒和30秒，或类似的东西。你是正确的，光谱值可能会根据长度发生相当大的变化！