大数据集的熊猫预处理操作

时间:2020-05-26 15:34:58

标签: python pandas pandas-groupby large-data

我有大约1000万行的大型数据集。数据集如下所示:

id    item  label
0      A     0
0      A     0
0      C     0
1      A     1
1      B     1
1      C     1
1      A     1
2      E     0
2      D     0

我想做的是将数据集更改为以下格式:

id    item                label
0     ['A','A','C']         0
1     ['A','B','C','A']     1
2     ['E','D']             0

通常,我想对“ ID”列进行分组,以便每一行都有唯一的ID,并且item列将包含与其ID相关联的所有项目的列表。标签将只是该ID的标签。 数据集非常大,我想知道什么是有效解决此问题的最佳方法。我正在使用Python。

0 个答案:

没有答案