获得Pandas Pivot表中另一列的百分比

时间:2013-09-11 16:37:06

标签: python pandas pivot-table

我试图在pandas中获得类似的excel功能,主要是类型行为的百分比。使用以下数据:

{'A': ['a', 'b', 'b', 'a', 'a', 'a', 'b', 'b', 'b', 'a', 'a', 'a', 'b'], 
 'C': ['e', 'e', 'e', 'f', 'f', 'f', 'f', 'f', 'f', 'f', 'f', 'e', 'e'], 
 'B': ['c', 'c', 'c', 'c', 'c', 'd', 'd', 'd', 'd', 'd', 'c', 'c', 'd'], 
 'D': ['g', 'g', 'h', 'h', 'g', 'g', 'h', 'h', 'g', 'g', 'h', 'h', 'g'], 
 'V1': [84.0, 440.0, 423.0, 63.0, 990.0, 192.0, 169.0, 387.0, 934.0, 208.0, 834.0, 923.0, 230.0], 
 'V2': [120.0, 942.0, 153.0, 284.0, 517.0, 695.0, 37.0, 30.0, 237.0, 56.0, 15.0, 696.0, 25.0]}

我从这本词典中创建了一个名为df1的DataFrame对象。

我想最终展示:

B   C   V1  V2  V2 as Percent of B
c   e   1870    1911    0.700770077
c   f   1887    816 0.299229923
d   e   230 25  0.023148148
d   f   1890    1055    0.976851852

我可以通过执行pivot_table(df1,values=['V1','V2'],rows=['B','C'],aggfunc=numpy.sum,fill_value=0)来获取Pandas pivot_table:

       V1    V2
B C            
c e  1870  1911
  f  1887   816
d e   230    25
  f  1890  1055

任何人都知道如何在最后一步获取该列?

谢谢! 乔恩

1 个答案:

答案 0 :(得分:5)

这是使用groupby到DataFrame的B级的一种方式:

In [11]: p
Out[11]: 
       V1    V2
B C            
c e  1870  1911
  f  1887   816
d e   230    25
  f  1890  1055

In [12]: g = p.groupby(level='B')

并获取每组中每个V2的百分比:

In [13]: g['V2'].apply(lambda s: s.astype(float) / s.sum())
Out[13]: 
B  C
c  e    0.700770
   f    0.299230
d  e    0.023148
   f    0.976852
dtype: float64

最后,将其指定为一列:

In [14]: p['PercentOfB'] = g['V2'].apply(lambda s: s.astype(float) / s.sum())

In [15]: p
Out[15]: 
       V1    V2  PercentOfB
B C                        
c e  1870  1911    0.700770
  f  1887   816    0.299230
d e   230    25    0.023148
  f  1890  1055    0.976852

为了进一步扩展这里发生的事情,在应用期间,每个组都调用函数(在这种情况下有两个,一个用于B ='c',一个用于B ='d'),这里是c组:

In [21]: c
Out[21]: 
B  C
c  e    1911
   f     816
Name: c, dtype: int64

并且感兴趣的结果是除以总数:

In [22]: c.sum()
Out[22]: 2727

不幸的是在python 2中,整数除法不是“正确的”:

In [23]: c / c.sum()
Out[23]: 
B  C
c  e    0
   f    0
Name: c, dtype: int64

所以我们需要通过使它们浮动来修复它,通常我使用astype(float)* 1.0强制执行此操作:

In [24]: c.astype(float) / c.sum()
Out[24]: 
B  C
c  e    0.70077
   f    0.29923
Name: c, dtype: float64
然后

应用然后将此输出与B ='d'组一起输出以获得所需的结果。

注意:关于我如何得到c,因为我发现这是一个非常有用的写作技巧。

我创建了一个虚拟函数和一个空列表,并将其应用于groupby:

a = []
def f(x):
    a.append(x)
    return x

g['v2'].apply(f)

c = a[0]

然后我玩了,直到我得到了我想要的东西。