我正在尝试按类别变量installation_id
进行分组。由于某种原因,groupby似乎包括不在数据帧本身中的组。例如:
df.groupby('installation_id').size() # Length of each group
installation_id
0001e90f 0
000447c4 0
0006a69f 16
0006c192 7
0009a5a9 0
..
我不希望任何组有0行。
此数据帧是作为较大数据帧的子集构成的,因此我假设它正在继承较大数据帧的组?如何预防这种情况,以获得预期的结果?
我在分组之前尝试过df = df.copy()
,这没什么区别。
感谢您的帮助,我对此还比较陌生!
答案 0 :(得分:4)
这是按分类数据分组的功能。
代替使用:
df.groupby(df['installation_id'].to_numpy()).size()
或者更简单地来自ALollz (如果ALollz发布答案,则会删除)
df.groupby('installation_id', observed=True).size()