针对RNN的Keras屏蔽具有不同的时间步长

时间:2017-02-20 19:46:46

标签: python numpy neural-network keras recurrent-neural-network

我尝试使用具有不同时间长度的序列在Keras中安装RNN。我的数据是Numpy数组,格式为(sample, time, feature) = (20631, max_time, 24),其中max_time在运行时确定为具有最多时间戳的样本的可用时间步数。我用0填写了每个时间序列的开头,显然最长的除外。

我最初定义了我的模型......

model = Sequential()
model.add(Masking(mask_value=0., input_shape=(max_time, 24)))
model.add(LSTM(100, input_dim=24))
model.add(Dense(2))
model.add(Activation(activate))
model.compile(loss=weibull_loglik_discrete, optimizer=RMSprop(lr=.01))
model.fit(train_x, train_y, nb_epoch=100, batch_size=1000, verbose=2, validation_data=(test_x, test_y))

为了完整性,这里是损失函数的代码:

def weibull_loglik_discrete(y_true, ab_pred, name=None):
    y_ = y_true[:, 0]
    u_ = y_true[:, 1]
    a_ = ab_pred[:, 0]
    b_ = ab_pred[:, 1]

    hazard0 = k.pow((y_ + 1e-35) / a_, b_)
    hazard1 = k.pow((y_ + 1) / a_, b_)

    return -1 * k.mean(u_ * k.log(k.exp(hazard1 - hazard0) - 1.0) - hazard1)

以下是自定义激活功能的代码:

def activate(ab):
    a = k.exp(ab[:, 0])
    b = k.softplus(ab[:, 1])

    a = k.reshape(a, (k.shape(a)[0], 1))
    b = k.reshape(b, (k.shape(b)[0], 1))

    return k.concatenate((a, b), axis=1)

当我拟合模型并进行一些测试预测时,测试集中的每个样本都得到完全相同的预测,这看起来很可疑。

如果我删除了遮蔽层,事情会变得更好,这让我觉得遮蔽层有问题,但据我所知,我已完全按照文档进行操作。

屏蔽层是否有错误指定的内容?我错过了别的什么吗?

2 个答案:

答案 0 :(得分:5)

实施屏蔽的方式应该是正确的。如果您的数据形状为(样本,时间步长,要素),并且您希望屏蔽缺少与要素大小相同的零掩码的数据的时间步长,则添加{{1} }。见这里:keras.io/layers/core/#masking

您的模型可能过于简单,和/或您的时代数量可能不足以让模型区分您的所有类。试试这个模型:

Masking(mask_value=0., input_shape=(timesteps, features))

如果这不起作用,请尝试将时期加倍几次(例如200,400)并查看是否可以改善结果。

答案 1 :(得分:3)

如果没有实际数据,我无法验证,但我对RNN有类似的经验。在我的情况下,规范化解决了这个问题。将标准化图层添加到模型中。