我希望train_test_split主要在一个特定的数字范围内进行训练

时间:2019-04-23 20:57:41

标签: pandas machine-learning jupyter

我正在使用jupyter / python运行一些回归模型来预测某些项目的周期。我使用了来自sklearn的train_test_split来随机划分数据集。

对于周期时间较长(150-300天之间)的项目,这些模型通常效果很好,但是我更关心的是0到50天之间的较短周期时间。

我相信该模型对于更高的范围更为准确,因为大多数项目(约60-70%)的周期时间都超过100天。我希望我的模型主要能缩短周期时间,因为出于我的工作目的,一个周期为120天的项目与一个周期为300天的项目是相同的。

在我看来,我需要对周期时间较短的项目进行更多培训吗?我觉得这可能有帮助?

  1. 有没有一种方法可以减少数据的随机性?短周期项目的比例更高的Aka火车
  2. 我应该考虑一种更好还是不同的方法?

0 个答案:

没有答案