音频样本应该用于音乐/语音识别多长时间?

时间:2017-03-02 14:45:39

标签: machine-learning classification convolution spectrogram

我正在开发一个卷积神经网络,使用audio spectrogram

GTZAN dataset区分音乐和语音

如果单个样本较短,则总体上会提供更多样本。但如果样本太短,那么它们可能缺乏重要的特征吗?

识别一段音频是音乐还是语音需要多少数据?

音频样本应该在多长时间内完成?

2 个答案:

答案 0 :(得分:2)

音频的长度因因素而异。

基本的想法是获得足够的样本 由于音频不断变化,因此最好使用较短的数据。但是,非常小的帧会导致捕获的特征较少/没有。

另一方面,非常大的样本会捕获太多特征,从而导致复杂性。 因此,在大多数用例中,虽然理想的音频长度 25秒,但它不是书面规则,您可以相应地操作它。只需确保帧大小不是很小或非常大。 / p>

更新数据集 查看{30}数据集的this链接

答案 1 :(得分:1)

  

识别一段音频是音乐还是语音需要多少数据?

如果有人确切知道这个问题的答案,那么问题就会解决:) 但严重的是,这取决于您的下游应用程序。想象一下,尝试区分语音与背景音乐与acapella唱歌(硬)或分类管弦乐和音频书籍(简单)。

  

音频样本应该在多长时间内完成?

与机器学习中的所有内容一样,它取决于应用程序。对你而言,我会说测试至少10秒,20秒和30秒,或类似的东西。你是正确的,光谱值可能会根据长度发生相当大的变化!