Question

我正在尝试使用Keras中具有LSTM层的自动编码器模型来检测文本异常值。我已经将每个句子编码成一个数字序列，每个数字代表一个字母。

到目前为止，我已经使用固定长度的输入来训练模型，方法是将4000序列中的零填充到最大长度= 40，从而使用[4000,40,1]形状的数组（[batch_size ，时间步长，功能]）。

现在，我想知道如何在不使用零填充每个序列（句子）的情况下使用这样的自动编码器模型，从而根据每个句子（序列）的实际大小来训练和预测。

此刻，我已经对每个序列进行了标准化处理，因此我的火车数据（x_train）是一个数组列表，列表中的每个数组都代表一个标准化的不同长度数字序列。

要将这些数据输入到LSTM模型中，我尝试使用以下方法将其重塑为3d数组：

x_train=np.reshape(x_train, (len(x_train), 1, 1))

不确定这是否正确。

我的模型如下所示（我删除了input_shape参数，因此模型可以接受可变长度的输入）：


model = Sequential()
model.add(LSTM(20, activation='tanh',return_sequences=True))
model.add(LSTM(15, activation='tanh', return_sequences=True))
model.add(LSTM(5, activation='tanh', return_sequences=True))
model.add(LSTM(15, activation='tanh', return_sequences=True))
model.add(LSTM(20, activation='tanh', return_sequences=True))
model.add((Dense(1,activation='tanh')))

然后在尝试编译和训练模型时

nb_epoch = 10
model.compile(optimizer='rmsprop', loss='mse')
checkpointer = ModelCheckpoint(filepath="text_model.h5",
                               verbose=0,
                               save_best_only=True)

es_callback = keras.callbacks.EarlyStopping(monitor='val_loss')

history = model.fit(x_train, x_train,
                    epochs=nb_epoch,
                    shuffle=True,
                    validation_data=(x_test, x_test),
                    verbose=0,
                    callbacks=[checkpointer,es_callback])

我收到错误消息：“ ValueError：设置具有序列的数组元素。”

我的模型摘要如下：

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
lstm_6 (LSTM)                (None, 1, 20)             1760      
_________________________________________________________________
lstm_7 (LSTM)                (None, 1, 15)             2160      
_________________________________________________________________
lstm_8 (LSTM)                (None, 1, 5)              420       
_________________________________________________________________
lstm_9 (LSTM)                (None, 1, 15)             1260      
_________________________________________________________________
lstm_10 (LSTM)               (None, 1, 20)             2880      
_________________________________________________________________
dense_2 (Dense)              (None, 1, 1)              21        
=================================================================
Total params: 8,501
Trainable params: 8,501
Non-trainable params: 0
_________________________________________________________________

所以我的问题是，是否有可能在LSTM自动编码器模型中使用变长输入序列进行训练和预测。

如果我关于使用这种模型体系结构进行文本离群值检测的思考过程是正确的。

Answer 1

仍然必须进行填充，以使输入可以是3d数组（张量），但是Keras实际上提供了masking层供您忽略输入张量中的填充0。这样模型就不会受到填充的影响。

from keras.models import Sequential
from keras.layers import LSTM, Dense, Masking

model = Sequential()
model.add(Masking(mask_value=0.0, input_shape=(timesteps, features)))
model.add(LSTM(20, activation='tanh',return_sequences=True))
model.add(LSTM(15, activation='tanh', return_sequences=True))
model.add(LSTM(5, activation='tanh', return_sequences=True))
model.add(LSTM(15, activation='tanh', return_sequences=True))
model.add(LSTM(20, activation='tanh', return_sequences=True))
model.add((Dense(1,activation='tanh')))

LSTM自动编码器的可变长度输入-Keras

1 个答案: