sklearn火车测验按年划分

时间:2020-05-12 08:09:26

标签: python scikit-learn train-test-split

我有一个2016年至2020年的数据集,并带有“年份”列。我想将2016-2017年用作训练数据,将2018-2020年用作测试数据。有没有简单的方法可以执行此数据拆分?

1 个答案:

答案 0 :(得分:0)

您可以使用groupby功能将2016年至2017年的所有数据分组为训练数据,并将2018-2020年的分组数据作为测试数据。 另外,您也可以使用以下代码

df_train = df[df['year'].isin(2016,2017)] and df_test = df[df['year'].isin(2018,2019,2020)]