Tensorflow模型选择?我选择哪种型号?

时间:2016-04-25 14:46:29

标签: machine-learning tensorflow deep-learning

我已经使用和LSTM训练了一个网络,但是我发现有过度拟合而且已经尝试过LR /批量大小/优化器的几种组合,但是大多数组合给出了类似的图形。

我想知道我可以在75k迭代之前使用模型。 你会认为这个模型过于合适吗?

enter image description here enter image description here

2 个答案:

答案 0 :(得分:1)

实际上很难说这是否过度拟合 - 因为你在训练中的变异非常大。很可能,但不确定。

选择哪种型号?

通常,您将创建一个验证数据集,在其中测试网络性能,然后选择产生最高分数的模型(包括一组超参数)。就这样。如果没有额外的验证设置,那将很难。

如何适应过度拟合?

有很多技巧,包括:

  • 提前停止(您将再次需要 - 验证设置,以测试您的网络何时开始过度填充)
  • 添加先验
    • 之前的权重 - 如L2正规化
    • 之前的网络结构 - 也许您可以限制网络的大小?
    • 之前的数据分发 - 也许您可以通过某种方式扩充数据集?喜欢 - 对于图像,您通常可以稍微分解它们(旋转,平移)而不会丢失标签。对于通用数据,通常可以使它们正常工作
  • 集成 - 平均多个网络(显式或通过丢失)可以减少过度拟合
  • 最后但并非最不重要 - 收集更多数据总是有帮助的(如限制经验误差收敛于泛化)。

答案 1 :(得分:0)

你所建议的技术称为early stopping,许多人已经将它用作对抗拟合的方法。您可以做的其他事情是减少网络规模或尝试收集更多数据。