我有一个非常大的数据集,我想分成10个批次。数据包含ID,日期和多个功能。必须执行拆分,以使所有相同的ID都在同一批中。
因此,我想进行采样而无需更换。原因是我想对整个数据集进行数据处理,但是它太大了,无法处理,因此,我正在寻找一种如上所述的拆分数据集的方法。
以下是产生结果的一个想法,其中“批处理”功能是所需的输出,将用于拆分数据集。
id日期批次
121024 01/01/2019 1
1175 01/01/2019 2
86372 01/01/2019 3
1001 01/01/2019 4
121024 02/01/2019 1
1175 02/01/2019 2
86372 02/01/2019 3
121024 03/01/2019 1
1175 03/01/2019 2
1001 03/01/2019 4
86372 03/01/2019 3
但是我愿意寻求更有效的解决方案!