应用错误收集

我有大约1000万行的大型数据集。数据集如下所示：

id    item  label
0      A     0
0      A     0
0      C     0
1      A     1
1      B     1
1      C     1
1      A     1
2      E     0
2      D     0

我想做的是将数据集更改为以下格式：

id    item                label
0     ['A','A','C']         0
1     ['A','B','C','A']     1
2     ['E','D']             0

通常，我想对“ ID”列进行分组，以便每一行都有唯一的ID，并且item列将包含与其ID相关联的所有项目的列表。标签将只是该ID的标签。数据集非常大，我想知道什么是有效解决此问题的最佳方法。我正在使用Python。

大数据集的熊猫预处理操作

0 个答案: