使用受限制的boltzmann机器提取音频特征

时间:2013-12-12 19:28:37

标签: audio machine-learning training-data

我想使用RBM(Restricted Boltzmann Machine)提取音频功能。为此,我将光谱图(PCA白化)作为RBM的输入 对于每个音频文件,频谱图是没有的矩阵。列固定但每个音频文件的行数不同。我的问题是如何训练我的RBM,或者如何在给定此频谱图矩阵的情况下使用RBM从音频中提取特征。我在Honglak Lee撰写的一篇论文中读到了使用卷积深度信念网络进行音频​​分类的无监督特征学习。 http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2009_1171.pdf
“然后我们训练了300个第一层基地,过滤器长度为6,最大合并比为3” 首先,这里的基地是什么意思。 (他们使用了卷积深信念网络,所以我猜,基数并不意味着权重) 其次,使用6的滤波器长度意味着什么?我该怎么做?任何提示将不胜感激。 (我是RBM的新手)

1 个答案:

答案 0 :(得分:0)

我认为这里令人困惑的是他们为他们深刻的信仰网络添加了一个卷积层。卷积层的概念是它们使用特定于图像的小区域的内核,在它们的情况下是6元素窗口。我不是音频问题的专家,但我相信基准指的是光谱仪中的不同波段。