Question

鉴于以下数据框：

import pandas as pd
p1 = {'name': 'willy', 'age': 11, 'interest': "Lego"}
p2 = {'name': 'willy', 'age': 11, 'interest': "games"}
p3 = {'name': 'zoe', 'age': 9, 'interest': "cars"}
df = pd.DataFrame([p1, p2, p3])
df

    age interest    name
0   11  Lego        willy
1   11  games       willy
2   9   cars        zoe

我想知道每个人的利益总和，并让每个人只在列表中显示一次。我做了以下事情：

Interests = df[['age', 'name', 'interest']].groupby(['age' , 'name']).count()
Interests.reset_index(inplace=True)
Interests.sort('interest', ascending=False, inplace=True)
Interests

    age name    interest
1   11  willy   2
0   9   zoe     1

这有效，但我觉得我做错了。现在我正在使用列'兴趣'来显示我的总和值，这是好的，但就像我说我希望有一个更好的方法来做到这一点。

我在熊猫中看到很多关于计算/总和的问题，但对我而言，我忽略了'重复'的部分是关键。

Answer 1

您可以在组的每一列中使用大小（每组的长度），而不是计数非NaN的数量。

In [11]: df[['age', 'name', 'interest']].groupby(['age' , 'name']).size()
Out[11]:
age  name
9    zoe      1
11   willy    2
dtype: int64

In [12]: df[['age', 'name', 'interest']].groupby(['age' , 'name']).size().reset_index(name='count')
Out[12]:
   age   name  count
0    9    zoe      1
1   11  willy      2

Answer 2

In [2]: df
Out[2]: 
   age interest   name
0   11     Lego  willy
1   11    games  willy
2    9     cars    zoe

In [3]: for name,group in df.groupby('name'):
   ...:     print name
   ...:     print group.interest.count()
   ...:     
willy
2
zoe
1

Pandas数据帧总和列和收集结果

2 个答案: