应用错误收集

时间：2015-03-23 14:40:36

标签： speech caffe

我正在寻找一个简单直接的基于CNN使用Caffe的一维信号分类（如语音信号）的例子。

从Caffe网站，可以按照一些示例和教程进行图像分类任务。相反，我正在寻找一个关于一维信号的示例和教程。

您的回答非常感谢。

答案 0 :(得分：2)

从概念上讲，使用1D数据与2D数据之间没有任何有意义的区别。您需要一个数据库，而不是2D图像，您将拥有形状的一维“图像”（通道：1，高度：1，宽度：d），并确保所有内核都使用 kernel_w 和 kernel_h 而不是 kernel_size （将内核设置为方形）。

如果您正在寻找可以使用的示例架构，您可以按照本文的说明在原始波形语音数据上训练CNN：Speech Acoustic Modeling from Raw Multichannel Waveforms。

还有an open issue on Caffe's Github page请求语音域的示例，您可以查看更多可能实现的链接。