如何避免与keras过度拟合?

时间:2021-04-30 03:07:40

标签: tensorflow machine-learning keras sequential mlp

def build_model():
  model = keras.models.Sequential()

  model.add(keras.layers.Flatten(input_shape=[32,32,3]))
  keras.layers.Dropout(rate=0.2)

  model.add(keras.layers.Dense(500, activation="relu"))
  keras.layers.Dropout(rate=0.2)

  model.add(keras.layers.Dense(300, activation="relu"))
  keras.layers.Dropout(rate=0.2)  

  model.add(keras.layers.Dense(10, activation="softmax"))
  model.compile(loss='sparse_categorical_crossentropy', optimizer=keras.optimizers.SGD(), metrics=['accuracy'])
  return model 

keras_clf = keras.wrappers.scikit_learn.KerasClassifier(build_model)

def exponential_decay_fn(epoch): 
  return 0.05 * 0.1**(epoch / 20)

lr_scheduler = keras.callbacks.LearningRateScheduler(exponential_decay_fn)

history = keras_clf.fit(np.array(X_train_new), np.array(y_train_new), epochs=100,
                      validation_data=(np.array(X_validation), np.array(y_validation)),
                      callbacks=[keras.callbacks.EarlyStopping(patience=10),lr_scheduler])

The result of the above code

我使用“退出”、“提前停止”和“lr 调度程序”。结果似乎过拟合,我尝试将隐藏层的 n_neurons 减少到 (300, 100)。结果欠拟合,训练集的准确率只有0.5左右。

有什么建议吗?

1 个答案:

答案 0 :(得分:1)

我处理这些问题我首先从一个简单的模型开始,比如只有几个密集层,没有很多节点。我运行模型并查看最终的训练精度。建模的第一步是获得高训练精度。您可以在每一层中添加更多层或更多节点,直到获得令人满意的准确度。一旦实现,然后开始评估验证损失。如果经过一定数量的 epoch 后,训练损失继续下降,但验证损失开始呈上升趋势,那么您处于过拟合状态。现在趋势这个词是进口的。我无法从您的图表中判断您是否真的过度拟合,但在我看来,验证损失已达到其最小值,并且可能在最小值附近振荡。这是正常的,不会过拟合。如果你有一个可调节的 lr 回调来监控验证损失,或​​者一个学习率调度程序降低学习可能会让你达到一个较低的最小损失,但在某些时候(如果你运行足够的 epochs)不断降低学习率并不能让你到较低的最小损失。该模型已尽其所能。 现在,如果您真的过度拟合,您可以采取补救措施。一种是在可能降低训练准确性的情况下增加更多的 dropout。另一个是添加 L1 和或 L2 正则化。相关文档是 here.。如果您的训练准确度很高但验证准确度很差,这通常意味着您需要更多的训练样本,因为您拥有的样本不能完全代表数据概率分布。更多的训练数据总是更好。我注意到你有 10 个班级。查看数据集的平衡性。如果类的样本数量明显不同,这可能会导致问题。有很多方法可以处理该问题,例如对表示类进行过采样、对表示类进行欠采样或两者的组合。一个简单的方法是使用 model.fit 中的 class_weight 参数。查看您的验证集并确保它没有使用来自代表性不足的类的许多样本。始终最好从整个数据集中随机选择验证集。

相关问题