我正在使用tf.keras(tensorflow版本1.9.0)处理多标签文本分类。 我有一个由185485火车和46372验证示例组成的数据集。
对于第一次尝试(在CPU上),我预先填充了数据并将其提供给模型:
from tensorflow import keras
....
X_train = keras.preprocessing.sequence.pad_sequences(X_train, maxlen=2000)
inp = keras.Input(shape=(X_train.shape[1], ))
x = keras.layers.Embedding(len(tk.word_index) + 1, 256, mask_zero=True)(inp)
x = keras.layers.LSTM(128, return_sequences=False)(x)
x = keras.layers.Dropout(0.1)(x)
x = keras.layers.Dense(y_train.shape[1], activation="sigmoid")(x)
model = keras.Model(inputs=inp, outputs=x)
model.compile(loss='binary_crossentropy',
optimizer='adam',
metrics=['accuracy'])
model.fit(X_train, y_train, batch_size=128, epochs=300, validation_split=0.2)
该模型每个时期需要〜130分钟进行训练。
然后我尝试对数据集执行相同的操作。由于我的数据很大,因此我无法容纳2GB的限制来使用Dataset.from_tensor_slices()
,而我改用Dataset.from_generator()
X_train = keras.preprocessing.sequence.pad_sequences(X_train, maxlen=2000)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=777, stratify=y_train)
def gen(data, labels):
for x, y in zip(data, labels):
yield x, y
train_dataset = tf.data.Dataset.from_generator(
lambda: gen(X_train, y_train),
output_types=(tf.int32, tf.int32),
output_shapes=([2000], [y_train.shape[1]]),
)
train_dataset = train_dataset.batch(128)
train_dataset = train_dataset.repeat()
val_dataset = ...
....
model.fit(train_dataset, epochs=300, steps_per_epoch=len(X_train)//128, validation_data=val_dataset,
validation_steps=len(X_val)//128)
我希望表现大致相同,但事实并非如此,因为一个纪元要花〜280分钟来训练。 我想念什么?如何使用数据集输入获得相同的性能?
答案 0 :(得分:-2)
unroll=True
。有关详细信息,请查看Keras网站上的LSTM层文档