解决过度拟合的策略-其他选择?

时间:2018-09-19 13:41:48

标签: python machine-learning classification categorical-data

我正在建立一个预测模型,我想知道我是否可以预测包裹是否会按时交付(二进制是/否),如果包裹没有按时交付,我希望能够预测何时将在预期日期之后的<7天,<14天,<21天> 28天的类别中交付。

我已经建立并测试了用于二元分类的模型,并且f得分为0.92,这足以满足我的需求。但是,当我训练分类模型时,我开始看到训练准确性和验证准确性有所不同(训练准确性比验证准确性好得多)。这是过度拟合的标志。

但是,我尝试了正则化和其他值,还使用了dropout和其他值,并且验证准确性从未达到0.7以上。我的总训练集约有1万个示例,约3k个验证,并且分类法的传播范围不相等,但每个类别都有足够的示例(我认为)。我使用的是NN,并且增加/减少了图层和激活,仍然没有乐趣

关于下一步的任何想法。谢谢

2 个答案:

答案 0 :(得分:0)

由于您正在使用NN,因此请引入辍学层。看看是否可以帮助减少过度拟合的问题。并签出这个How to choose the number of hidden layers and nodes in a feedforward neural network?

网络越复杂(隐藏层,其中的神经元数量),也会导致过拟合问题

答案 1 :(得分:0)

我们选择的方法是以期望的持续时间为目标变量进行线性回归。我们排除了一些离群值,然后采用了实际天数与预测天数之间的差异。然后我们最大和最小地求和,现在有了一个可以忍受范围的预测。我们将继续研究其他技术,以查看是否可以改进。感谢所有提出想法的人