python pandas groupby:key1的key2值的百分比

时间:2013-03-29 08:55:13

标签: python pandas

我有一个数据框,我用两个键df.groupby(['key1',key2'])对其进行分组。对于每个key2条目,如何显示其key1值的百分比?

2 个答案:

答案 0 :(得分:6)

这是使用一个groupby语句的替代方法。

按k1分组,选择列k2并应用lambda函数。 lambda获取 k1中每个k2 级别的频率计数,然后我们除以k1的计数:

In [1]: df.groupby('k1')['k2'].apply(lambda x: pd.value_counts(x)/x.count().astype(float))

Out[1]:
k1
a   x    0.500000
    y    0.500000
b   y    0.666667
    x    0.333333

性能:

HYRY的方法:

100 loops, best of 3: 3.07 ms per loop

我的方法:

1000 loops, best of 3: 1.98 ms per loop

答案 1 :(得分:3)

为“k1”和(“k1”,“k2”)调用groupby两次,然后执行div

import pandas as pd
k1 = ["a", "a", "a", "a", "b", "b", "b"]
k2 = ["x", "x", "y", "y", "x", "y", "y"]
df = pd.DataFrame({"k1":k1, "k2":k2})

df.groupby(["k1", "k2"]).k2.count().div(
    df.groupby("k1").k1.count().astype(float), level=0)

输出:

k1  k2
a   x     0.500000
    y     0.500000
b   x     0.333333
    y     0.666667