鉴于第1周和第2周的数据,我正在尝试训练模型以预测第3周的数据。
目标标签称为 target 。
鉴于此问题着眼于用户的历史行为以预测其未来的行为,我对应该使用哪些正确的特征来训练模型感到困惑
火车数据
id,date,week_day,target
1,2019-01-01,1,10
1,2019-01-02,2,6
1,2019-01-03,3,7
2,2019-01-01,1,8
2,2019-01-02,1,5
2,2019-01-03,1,4
测试数据(请参阅将来的日期)
id,date,week_day,target
1,2019-01-10,1,15
1,2019-01-11,2,13
1,2019-01-12,3,8
2,2019-01-10,1,7
2,2019-01-11,1,7
2,2019-01-12,1,4
1)我想知道在训练数据中将id保留为特征是否正确?我知道大多数机器学习问题都不保留id字段,但是这个问题与测试数据集中使用的相同 id字段有些不同。
2)我打算删除日期字段
答案 0 :(得分:1)
看来您的问题可以看作是时间序列预测。您的数据具有季节性。您可以尝试使用诸如sarima
之类的算法来执行回归分析答案 1 :(得分:1)
1)我想知道将id作为功能保留在其中是否正确 训练数据?我知道大多数机器学习问题都不保留id字段,但是 这个问题有点不同,即相同的id字段正在 在测试数据集中使用。
我看到您为同一id
有两种类型的日期(在训练和测试集中)。因此,如果此id
代表与目标有关的事物,请保留该目标。否则,将其丢弃。
2)我打算删除日期字段
作为可能的功能,您将失去年,月,周,日,假期标记。
除了SARIMA,我可以建议在这里尝试拟合一些回归模型。有时他们会执行类似时间序列的任务。
答案 2 :(得分:0)
您的数据的功能太少了,您可以尝试像皮埃尔(Pierre)建议的Sarima这样的多个模型,但是由于只有这些功能,您可能会遇到困难,我建议您尝试绘制相关矩阵,看看是否存在任何协方差。 -输入和输出之间的关系,如果没有模型可以为您提供帮助,如果要素之间存在关联,则只有模型才能学习该关联和概括。
如果您不知道如何绘制互相关矩阵https://seaborn.pydata.org/examples/many_pairwise_correlations.html
,此链接可能会很有帮助。如果您不熟悉它们,则此链接可以帮助您理解它们之间的关系 https://machinelearningmastery.com/how-to-use-correlation-to-understand-the-relationship-between-variables/
如果您无法从链接中了解某些内容,请随时发表评论。