我迷失在Pandas doc和功能中,试图通过列总和的数值找出groupby
DataFrame
的方法。
In [2]: dat = {'a':[1,0,0], 'b':[0,1,0], 'c':[1,0,0], 'd':[2,3,4]}
In [3]: df = pd.DataFrame(dat)
In [4]: df
Out[4]:
a b c d
0 1 0 1 2
1 0 1 0 3
2 0 0 0 4
我希望对a
,b
和c
列进行分组,因为它们的总和等于1.生成的DataFrame的列标签等于其总和它总结的列。像这样:
1 9
0 2 2
1 1 3
2 0 4
有什么想法让我朝着好的方向前进吗?提前谢谢!
答案 0 :(得分:8)
你走了:
In [57]: df.groupby(df.sum(), axis=1).sum()
Out[57]:
1 9
0 2 2
1 1 3
2 0 4
[3 rows x 2 columns]
df.sum()
是你的石斑鱼。它总结了0轴(索引),为您提供了两个组:1
(列a
,b
和c
)和9
(专栏d
)。您希望对列(axis=1
)进行分组,并获取每个组的总和。
答案 1 :(得分:0)
因为pandas
在设计时考虑了数据库概念,所以实际上期望信息一起存储在行中而不是列中。因此,按行进行操作通常会更优雅。以下是如何逐行解决问题:
dat = {'a':[1,0,0], 'b':[0,1,0], 'c':[1,0,0], 'd':[2,3,4]}
df = pd.DataFrame(dat)
df = df.transpose()
df['totals'] = df.sum(1)
print df.groupby('totals').sum().transpose()
#totals 1 9
#0 2 2
#1 1 3
#2 0 4