所以,我正在尝试为大约200首歌曲的片段(每首歌曲约3-5分钟)学习固定的矢量表示,并希望使用基于LSTM的序列到序列自动编码器。
我正在预处理音频(使用librosa),如下所示:
我阅读了示例here,并希望将其扩展到我的用例。我想知道timesteps
图层的input_dim
和Input
参数应该设置为什么。
我正在设置timesteps = X.shape[0]
(在这种情况下为512)和input_dim = X.shape[1]
(即600000)。这是正确的方法吗?
修改:添加了上述说明。
答案 0 :(得分:0)
您的输入实际上是一维序列而不是二维图像。 输入张量将为(600000,512,1),您需要将input_dim设置为1,将时间步长设置为512。 形状输入不采用张量的第一个维度(例如,在您的情况下为600000)。