如何将数据集分为训练和测试以保持随机性?

时间:2019-06-25 16:58:26

标签: python pandas machine-learning data-science

在我的数据集中,我想进行时间分割,例如,在我的数据集中,我有2014、2015、2016年的数据。如果我通常使用火车测试数据,可能会发生2014年和2015年的所有数据训练和2016年测试,而我的模型将无法预测2016年数据?如何拆分数据集,使我的训练和测试数据包含三年中的所有值。

我尝试在“ year”栏上使用groupby,然后每年发送70%进行培训,其中30%进行测试 2014-70%的人要去训练休息测试 2015-70%的人要去训练休息测试

0 个答案:

没有答案