给定时间序列数据的最佳回归模型训练方法

时间:2019-01-26 11:07:46

标签: machine-learning regression data-science feature-selection

鉴于第1周和第2周的数据,我正在尝试训练模型以预测第3周的数据。

目标标签称为 target

鉴于此问题着眼于用户的历史行为以预测其未来的行为,我对应该使用哪些正确的特征来训练模型感到困惑

火车数据

id,date,week_day,target
1,2019-01-01,1,10
1,2019-01-02,2,6
1,2019-01-03,3,7
2,2019-01-01,1,8
2,2019-01-02,1,5
2,2019-01-03,1,4

测试数据(请参阅将来的日期)

id,date,week_day,target
1,2019-01-10,1,15
1,2019-01-11,2,13
1,2019-01-12,3,8
2,2019-01-10,1,7
2,2019-01-11,1,7
2,2019-01-12,1,4

1)我想知道在训练数据中将id保留为特征是否正确?我知道大多数机器学习问题都不保留id字段,但是这个问题与测试数据集中使用的相同 id字段有些不同。

2)我打算删除日期字段

3 个答案:

答案 0 :(得分:1)

看来您的问题可以看作是时间序列预测。您的数据具有季节性。您可以尝试使用诸如sarima

之类的算法来执行回归分析

答案 1 :(得分:1)

  

1)我想知道将id作为功能保留在其中是否正确   训练数据?我知道大多数机器学习问题都不保留id字段,但是   这个问题有点不同,即相同的id字段正在   在测试数据集中使用。

我看到您为同一id有两种类型的日期(在训练和测试集中)。因此,如果此id代表与目标有关的事物,请保留该目标。否则,将其丢弃。

  

2)我打算删除日期字段

作为可能的功能,您将失去年,月,周,日,假期标记。

除了SARIMA,我可以建议在这里尝试拟合一些回归模型。有时他们会执行类似时间序列的任务。

答案 2 :(得分:0)

您的数据的功能太少了,您可以尝试像皮埃尔(Pierre)建议的Sarima这样的多个模型,但是由于只有这些功能,您可能会遇到困难,我建议您尝试绘制相关矩阵,看看是否存在任何协方差。 -输入和输出之间的关系,如果没有模型可以为您提供帮助,如果要素之间存在关联,则只有模型才能学习该关联和概括。

如果您不知道如何绘制互相关矩阵https://seaborn.pydata.org/examples/many_pairwise_correlations.html

,此链接可能会很有帮助。

如果您不熟悉它们,则此链接可以帮助您理解它们之间的关系 https://machinelearningmastery.com/how-to-use-correlation-to-understand-the-relationship-between-variables/

如果您无法从链接中了解某些内容,请随时发表评论。