在具有多个条件的pandas中复制Countifs()

时间:2017-03-28 20:14:06

标签: python python-3.x pandas

我有一个表格的DataFrame:

enter image description here

我想要实现的是一个DataFrame,它具有唯一的组和每列1-9的非零数。它看起来像下面。

enter image description here

我对此非常不知所措。我看到了问题here,但这并没有解决分组问题。我怎样才能用熊猫来实现这个目标?

2 个答案:

答案 0 :(得分:3)

假设你有以下DF:

In [82]: df
Out[82]:
    Group  1  2  3  4  5
0  Group1  0  1  4  0  1
1  Group1  3  0  4  1  5
2  Group2  0  1  4  3  6
3  Group2  5  1  4  0  7
4  Group3  0  0  4  7  8
5  Group3  7  1  4  7  9

解决方案:

In [83]: df.set_index('Group').ne(0).groupby(level=0).sum().reset_index()
Out[83]:
    Group    1    2    3    4    5
0  Group1  1.0  1.0  2.0  1.0  2.0
1  Group2  1.0  2.0  2.0  1.0  2.0
2  Group3  1.0  1.0  2.0  2.0  2.0

整数:

In [84]: df.set_index('Group').ne(0).groupby(level=0).sum().astype(int).reset_index()
Out[84]:
    Group  1  2  3  4  5
0  Group1  1  1  2  1  2
1  Group2  1  2  2  1  2
2  Group3  1  1  2  2  2

<强>更新

In [92]: df
Out[92]:
    Group  1  2  3  4  5
0  Group1  0  1  4  0  0
1  Group1  3  0  4  1  0
2  Group2  0  1  4  3  0
3  Group2  5  1  4  0  0
4  Group3  0  0  4  7  0
5  Group3  7  1  4  7  0

In [93]: df.set_index('Group').ne(0).groupby(level=0).sum().astype(int).reset_index()
Out[93]:
    Group  1  2  3  4  5
0  Group1  1  1  2  1  0
1  Group2  1  2  2  1  0
2  Group3  1  1  2  2  0

<强>定时:

In [37]: %timeit df.set_index('Group').ne(0).groupby(level=0).sum().astype(int).reset_index()
100 loops, best of 3: 6.24 ms per loop

In [38]: %timeit df.pivot_table(index='Group', aggfunc=np.count_nonzero)
100 loops, best of 3: 19.2 ms per loop

让我们对更大的(60,000行)DF进行测试:

In [39]: df = pd.concat([df] * 10**4, ignore_index=True)

In [40]: df.shape
Out[40]: (60000, 6)

In [42]: %timeit df.set_index('Group').ne(0).groupby(level=0).sum().astype(int).reset_index()
10 loops, best of 3: 22.4 ms per loop

In [43]: %timeit df.pivot_table(index='Group', aggfunc=np.count_nonzero)
10 loops, best of 3: 43 ms per loop

<强>结论:

由于额外的开销,IMO高级函数pivot_table速度较慢,但​​对于较大的数据集而言差异并不大......

答案 1 :(得分:2)

使用@MaxU解决方案中的df:

df.pivot_table(index='Group', aggfunc=np.count_nonzero)


        1   2   3   4   5
Group                   
Group1  1   1   2   1   2
Group2  1   2   2   1   2
Group3  1   1   2   2   2