我有一个像这样的数据框
>>> df = pd.DataFrame({'user_id':['a','a','s','s','s'],
'session':[4,5,4,5,5],
'revenue':[-1,0,1,2,1]})
>>> df
revenue session user_id
0 -1 4 a
1 0 5 a
2 1 4 s
3 2 5 s
4 1 5 s
会话和收入的每个值代表一种类型,我想计算每种类型的数量,表示revenue=-1
的{{1}}和session=4
的数量是1。
我发现简单的调用count()函数,而groupby()无法输出我想要的结果。
user_id=a
我该怎么做?
答案 0 :(得分:11)
df.value_counts
可用!从pandas 1.1开始,这是我推荐的用于计算组中行数(即组大小)的方法。要计算组中特定列中非南行的数量,请检查accepted answer。
旧
df.groupby(['A', 'B']).size() # df.groupby(['A', 'B'])['C'].count()
新 [✓]
df.value_counts(subset=['A', 'B'])
请注意,size
和count
不相同,前者统计每组中的所有行,后者仅统计非空行。有关更多信息,请参见this other answer of mine。
pd.__version__
# '1.1.0.dev0+2004.g8d10bfb6f'
df = pd.DataFrame({'num_legs': [2, 4, 4, 6],
'num_wings': [2, 0, 0, 0]},
index=['falcon', 'dog', 'cat', 'ant'])
df
num_legs num_wings
falcon 2 2
dog 4 0
cat 4 0
ant 6 0
df.value_counts(subset=['num_legs', 'num_wings'], sort=False)
num_legs num_wings
2 2 1
4 0 2
6 0 1
dtype: int64
将此输出与
进行比较df.groupby(['num_legs', 'num_wings'])['num_legs'].size()
num_legs num_wings
2 2 1
4 0 2
6 0 1
Name: num_legs, dtype: int64
如果不对结果进行排序,它也会更快:
%timeit df.groupby(['num_legs', 'num_wings'])['num_legs'].count()
%timeit df.value_counts(subset=['num_legs', 'num_wings'], sort=False)
640 µs ± 28.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
568 µs ± 6.88 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
答案 1 :(得分:10)
您似乎想要一次分组几列:
df.groupby(['revenue','session','user_id'])['user_id'].count()
应该给你你想要的东西
答案 2 :(得分:0)
我使用上面提供的解决方案来解决同一问题。您实际上可以指定要计数的任何列:
df.groupby(['revenue','session','user_id'])['revenue'].count()
和
df.groupby(['revenue','session','user_id'])['session'].count()
会给出相同的答案。