我试图在pandas中获得类似的excel功能,主要是类型行为的百分比。使用以下数据:
{'A': ['a', 'b', 'b', 'a', 'a', 'a', 'b', 'b', 'b', 'a', 'a', 'a', 'b'],
'C': ['e', 'e', 'e', 'f', 'f', 'f', 'f', 'f', 'f', 'f', 'f', 'e', 'e'],
'B': ['c', 'c', 'c', 'c', 'c', 'd', 'd', 'd', 'd', 'd', 'c', 'c', 'd'],
'D': ['g', 'g', 'h', 'h', 'g', 'g', 'h', 'h', 'g', 'g', 'h', 'h', 'g'],
'V1': [84.0, 440.0, 423.0, 63.0, 990.0, 192.0, 169.0, 387.0, 934.0, 208.0, 834.0, 923.0, 230.0],
'V2': [120.0, 942.0, 153.0, 284.0, 517.0, 695.0, 37.0, 30.0, 237.0, 56.0, 15.0, 696.0, 25.0]}
我从这本词典中创建了一个名为df1的DataFrame
对象。
我想最终展示:
B C V1 V2 V2 as Percent of B
c e 1870 1911 0.700770077
c f 1887 816 0.299229923
d e 230 25 0.023148148
d f 1890 1055 0.976851852
我可以通过执行pivot_table(df1,values=['V1','V2'],rows=['B','C'],aggfunc=numpy.sum,fill_value=0)
来获取Pandas pivot_table:
V1 V2
B C
c e 1870 1911
f 1887 816
d e 230 25
f 1890 1055
任何人都知道如何在最后一步获取该列?
谢谢! 乔恩
答案 0 :(得分:5)
这是使用groupby到DataFrame的B级的一种方式:
In [11]: p
Out[11]:
V1 V2
B C
c e 1870 1911
f 1887 816
d e 230 25
f 1890 1055
In [12]: g = p.groupby(level='B')
并获取每组中每个V2的百分比:
In [13]: g['V2'].apply(lambda s: s.astype(float) / s.sum())
Out[13]:
B C
c e 0.700770
f 0.299230
d e 0.023148
f 0.976852
dtype: float64
最后,将其指定为一列:
In [14]: p['PercentOfB'] = g['V2'].apply(lambda s: s.astype(float) / s.sum())
In [15]: p
Out[15]:
V1 V2 PercentOfB
B C
c e 1870 1911 0.700770
f 1887 816 0.299230
d e 230 25 0.023148
f 1890 1055 0.976852
为了进一步扩展这里发生的事情,在应用期间,每个组都调用函数(在这种情况下有两个,一个用于B ='c',一个用于B ='d'),这里是c组:
In [21]: c
Out[21]:
B C
c e 1911
f 816
Name: c, dtype: int64
并且感兴趣的结果是除以总数:
In [22]: c.sum()
Out[22]: 2727
不幸的是在python 2中,整数除法不是“正确的”:
In [23]: c / c.sum()
Out[23]:
B C
c e 0
f 0
Name: c, dtype: int64
所以我们需要通过使它们浮动来修复它,通常我使用astype(float)
或* 1.0
强制执行此操作:
In [24]: c.astype(float) / c.sum()
Out[24]:
B C
c e 0.70077
f 0.29923
Name: c, dtype: float64
然后应用然后将此输出与B ='d'组一起输出以获得所需的结果。
注意:关于我如何得到c,因为我发现这是一个非常有用的写作技巧。
我创建了一个虚拟函数和一个空列表,并将其应用于groupby:
a = []
def f(x):
a.append(x)
return x
g['v2'].apply(f)
c = a[0]
然后我玩了,直到我得到了我想要的东西。