我正在开发一个卷积神经网络,使用audio spectrogram
来GTZAN dataset区分音乐和语音如果单个样本较短,则总体上会提供更多样本。但如果样本太短,那么它们可能缺乏重要的特征吗?
识别一段音频是音乐还是语音需要多少数据?
音频样本应该在多长时间内完成?
答案 0 :(得分:2)
音频的长度因因素而异。
基本的想法是获得足够的样本
由于音频不断变化,因此最好使用较短的数据。但是,非常小的帧会导致捕获的特征较少/没有。
另一方面,非常大的样本会捕获太多特征,从而导致复杂性。
因此,在大多数用例中,虽然理想的音频长度 25秒,但它不是书面规则,您可以相应地操作它。只需确保帧大小不是很小或非常大。 / p>
更新数据集 查看{30}数据集的this链接
答案 1 :(得分:1)
识别一段音频是音乐还是语音需要多少数据?
如果有人确切知道这个问题的答案,那么问题就会解决:) 但严重的是,这取决于您的下游应用程序。想象一下,尝试区分语音与背景音乐与acapella唱歌(硬)或分类管弦乐和音频书籍(简单)。
音频样本应该在多长时间内完成?
与机器学习中的所有内容一样,它取决于应用程序。对你而言,我会说测试至少10秒,20秒和30秒,或类似的东西。你是正确的,光谱值可能会根据长度发生相当大的变化!