熊猫:计算数字并结合申请结果

时间:2016-11-23 05:52:19

标签: python pandas apply

我试图在组中计算连续的零(例如,2个连续的0或3个连续的零),并将结果组合在一个新的数据帧中。

raw_data = {'groups': ['x', 'x', 'x', 'x', 'x', 'x', 'x','z','y', 'y', 'y','y', 'y', 'z'],
    'runs': [0, 0, 0, 1, 1, 0, 0, 2, 1, 1, 1, 0, 0, 2]}
df = pd.DataFrame(raw_data, columns = ['groups', 'runs'])  

上面的数据框中的示例,首先我想知道每组中有多少2个连续的零,然后我想知道每组中有多少3个连续的零。

我想要结果(最好是在数据框中):

group    2_0s    3_0s
x         1       1
y         1       0
z         0       0

我希望找到一种通用方式,因为我希望能够为连续的1和2做同样的事情。

感谢。

1 个答案:

答案 0 :(得分:2)

您可以使用:

#get original unique sorted values of groups
orig = np.sort(df.groups.unique())
#add new groups for distinguish 0 in one group
df['g'] = (df.runs != df.runs.shift()).cumsum()
#filter only 0 values
df = df[df.runs == 0]
print (df)
   groups  runs  g
0       x     0  1
1       x     0  1
2       x     0  1
5       x     0  3
6       x     0  3
11      y     0  6
12      y     0  6

#get size by groups and g
df = df.groupby(['groups', 'g']).size().reset_index(name='0')
print (df)
  groups  g  0
0      x  1  3
1      x  3  2
2      y  6  2
#get size by groups and 0, unstack
#reindex by original unique values, add suffix to column names    
df1 = df.groupby(['groups','0'])
        .size()
        .unstack(fill_value=0)
        .reindex(orig, fill_value=0)
        .add_suffix('_0s')

print (df1)
0       2_0s  3_0s
groups            
x          1     1
y          1     0
z          0     0

更通用的解决方案:

df['g'] = (df.runs != df.runs.shift()).cumsum()
df = df.groupby(['groups', 'g', 'runs']).size().reset_index(name='0')
df1 = df.groupby(['groups','runs', '0']).size().unstack(level=[1,2]).fillna(0).astype(int)
print (df1)
runs    0     1     2
0       2  3  2  3  1
groups               
x       1  1  1  0  0
y       1  0  0  1  0
z       0  0  0  0  2