我正在尝试学习深度学习,特别是使用卷积神经网络。我想在一些音频数据上应用简单的网络。现在,据我所知,CNN经常用于图像和物体识别,因此当使用音频时,人们经常使用频谱图(特别是梅谱图)而不是时域中的信号。我的问题是,最好使用频谱图的图像(即RGB或灰度值)作为网络的输入,还是应该直接使用频谱图的2d幅度值?它甚至有所作为吗?
谢谢。
答案 0 :(得分:1)
谱图是一种可爱的表现形式,尤其适用于描述过程。从功能上讲,它只是输入数据的简化,不会增加任何信息,并且会失去准确性 - 这可能无关紧要。预处理不会给你任何东西,所以只需使用2d数据,让CNN从那里拿东西。
答案 1 :(得分:0)
通常图像具有局部图案。它是如此自然,因此通过应用卷积窗口,我们可以尝试提取一些本地连接功能因此,如果您在时域或频域中使用某些频谱图像,则不会出现问题。但令人惊讶的问题是如果我们直接使用频谱数据呢? 我看到了一个演示文稿,他们将CNN用于下一个单词预测,给出了上下文。在那个东西输入是单词向量。更重要的是数字。因此他们使用了CNN层(矩形滤波器)来提取特征。 因此,在这种情况下,如果数据具有某种自然的生成模式,这是完全正常的。