按Pandas列的总和值分组

时间:2014-02-05 17:38:11

标签: python group-by pandas dataframe

我迷失在Pandas doc和功能中,试图通过列总和的数值找出groupby DataFrame的方法。

例如,假设我有以下数据:

In [2]: dat = {'a':[1,0,0], 'b':[0,1,0], 'c':[1,0,0], 'd':[2,3,4]}

In [3]: df = pd.DataFrame(dat)

In [4]: df
Out[4]: 
   a  b  c  d
0  1  0  1  2
1  0  1  0  3
2  0  0  0  4

我希望对abc列进行分组,因为它们的总和等于1.生成的DataFrame的列标签等于其总和它总结的列。像这样:

   1  9
0  2  2
1  1  3
2  0  4

有什么想法让我朝着好的方向前进吗?提前谢谢!

2 个答案:

答案 0 :(得分:8)

你走了:

In [57]: df.groupby(df.sum(), axis=1).sum()
Out[57]: 
   1  9
0  2  2
1  1  3
2  0  4

[3 rows x 2 columns]

df.sum()是你的石斑鱼。它总结了0轴(索引),为您提供了两个组:1(列abc)和9 (专栏d)。您希望对列(axis=1)进行分组,并获取每个组的总和。

答案 1 :(得分:0)

因为pandas在设计时考虑了数据库概念,所以实际上期望信息一起存储在行中而不是列中。因此,按行进行操作通常会更优雅。以下是如何逐行解决问题:

dat = {'a':[1,0,0], 'b':[0,1,0], 'c':[1,0,0], 'd':[2,3,4]}
df = pd.DataFrame(dat)

df = df.transpose()
df['totals'] = df.sum(1)

print df.groupby('totals').sum().transpose()
#totals  1  9
#0       2  2
#1       1  3
#2       0  4