应用错误收集

时间：2018-09-19 13:41:48

标签： python machine-learning classification categorical-data

我正在建立一个预测模型，我想知道我是否可以预测包裹是否会按时交付（二进制是/否），如果包裹没有按时交付，我希望能够预测何时将在预期日期之后的<7天，<14天，<21天> 28天的类别中交付。

我已经建立并测试了用于二元分类的模型，并且f得分为0.92，这足以满足我的需求。但是，当我训练分类模型时，我开始看到训练准确性和验证准确性有所不同（训练准确性比验证准确性好得多）。这是过度拟合的标志。

但是，我尝试了正则化和其他值，还使用了dropout和其他值，并且验证准确性从未达到0.7以上。我的总训练集约有1万个示例，约3k个验证，并且分类法的传播范围不相等，但每个类别都有足够的示例（我认为）。我使用的是NN，并且增加/减少了图层和激活，仍然没有乐趣

关于下一步的任何想法。谢谢

答案 0 :(得分：0)

由于您正在使用NN，因此请引入辍学层。看看是否可以帮助减少过度拟合的问题。并签出这个How to choose the number of hidden layers and nodes in a feedforward neural network?

网络越复杂（隐藏层，其中的神经元数量），也会导致过拟合问题

答案 1 :(得分：0)

我们选择的方法是以期望的持续时间为目标变量进行线性回归。我们排除了一些离群值，然后采用了实际天数与预测天数之间的差异。然后我们最大和最小地求和，现在有了一个可以忍受范围的预测。我们将继续研究其他技术，以查看是否可以改进。感谢所有提出想法的人