应用错误收集

用于音频的卷积神经网络（CNN）

时间：2014-03-18 05:28:15

标签： neural-network convolution feature-extraction supervised-learning deep-learning

我一直在关注DeepLearning.net上的教程，以了解如何实现从图像中提取特征的卷积神经网络。本教程有很好的解释，易于理解和遵循。

我希望扩展相同的CNN，同时从视频（图像+音频）中提取多模态功能。

据我所知，视频输入只不过是与音频相关的一段时间（例如30 FPS）中显示的一系列图像（像素强度）。但是，我并不真正了解音频是什么，它是如何工作的，或者它是如何被分解为馈入网络的。

我已经阅读了几篇关于这个主题的论文（多模态特征提取/表示），但没有一篇论文解释过如何将音频输入到网络中。

此外，我从我的研究中了解到，多模式表征是我们的大脑真正起作用的方式，因为我们并没有故意过滤我们的感官以达到理解。这一切都是在我们不知道的情况下同时发生的（联合代表）。一个简单的例子是，如果我们听到狮子吼声，我们立即构成狮子的心理形象，感受到危险，反之亦然。在我们的大脑中发射了多种神经模式，以全面了解狮子的样子，听起来像，感觉，闻起来像是等等。

上面提到的是我的最终目标，但暂时我为了简单起见而打破了我的问题。

如果有人能够阐明音频如何被解剖，然后在卷积神经网络中表现出来，我真的很感激。我还要感谢您对多模态同步，联合表示以及使用多模态数据训练CNN的正确方法的想法。

修改我发现音频可以表示为频谱图。它作为音频的通用格式，表示为具有两个几何尺寸的图形，其中水平线表示时间，垂直表示频率。

enter image description here

是否可以对这些光谱图上的图像使用相同的技术？换句话说，我可以简单地将这些频谱图用作我的卷积神经网络的输入图像吗？

2 个答案:

答案 0 :(得分：17)

我们在声谱图上使用深度卷积网络进行口语识别任务。我们对this TopCoder contest中提供的数据集的准确率约为95％。详情为here。

普通卷积网络不捕获时间特征，因此例如in this work卷积网络的输出被馈送到时间延迟神经网络。但是我们的实验表明，即使没有额外的元素，当输入具有相似的大小时，卷积网络至少可以在某些任务上表现良好。

答案 1 :(得分：9)

有许多技术可以从音频数据中提取特征向量，以便训练分类器。最常用的是MFCC（梅尔频率倒谱），你可以把它想象成一个改进的＆＃34;频谱图，保留更多相关信息以区分类别。其他常用的技术是PLP（Perceptual Linear Predictive），它也给出了很好的结果。还有许多其他人不为人知。

最近，深度网络被用于自己提取特征向量，因此我们在图像识别方面的方式更为相似。这是一个活跃的研究领域。不久前我们还使用特征提取器来训练图像分类器（SIFT，HOG等），但这些技术被深度学习技术所取代，这些技术将原始图像作为输入并自行提取特征向量（实际上它是's＆＃39; s什么深度学习真的是关于。）

注意音频数据是连续的也是非常重要的。在训练分类器之后，您需要将顺序模型训练为HMM或CRF，它选择最可能的语音单元序列，使用分类器给出的概率作为输入。

学习语音识别的一个很好的起点是Jursky和Martins：Speech and Language Processing。它很好地解释了所有这些概念。

[编辑：添加一些可能有用的信息]

有许多语音识别工具包，其中包含从音频文件中提取MFCC特征向量的模块，但使用而不是为此目的并不总是直截了当。我目前正在使用CMU Sphinx4。它有一个名为FeatureFileDumper的类，可以单独使用，从音频文件生成MFCC向量。