我有大约1000万行的大型数据集。数据集如下所示:
id item label
0 A 0
0 A 0
0 C 0
1 A 1
1 B 1
1 C 1
1 A 1
2 E 0
2 D 0
我想做的是将数据集更改为以下格式:
id item label
0 ['A','A','C'] 0
1 ['A','B','C','A'] 1
2 ['E','D'] 0
通常,我想对“ ID”列进行分组,以便每一行都有唯一的ID,并且item列将包含与其ID相关联的所有项目的列表。标签将只是该ID的标签。 数据集非常大,我想知道什么是有效解决此问题的最佳方法。我正在使用Python。