我正在寻找一个简单直接的基于CNN使用Caffe的一维信号分类(如语音信号)的例子。
从Caffe网站,可以按照一些示例和教程进行图像分类任务。相反,我正在寻找一个关于一维信号的示例和教程。
您的回答非常感谢。
答案 0 :(得分:2)
从概念上讲,使用1D数据与2D数据之间没有任何有意义的区别。您需要一个数据库,而不是2D图像,您将拥有形状的一维“图像”(通道:1,高度:1,宽度:d),并确保所有内核都使用 kernel_w 和 kernel_h 而不是 kernel_size (将内核设置为方形)。
如果您正在寻找可以使用的示例架构,您可以按照本文的说明在原始波形语音数据上训练CNN:Speech Acoustic Modeling from Raw Multichannel Waveforms。
还有an open issue on Caffe's Github page请求语音域的示例,您可以查看更多可能实现的链接。