大熊猫根据按列分组的指标计算差异

时间:2018-05-30 00:40:51

标签: python pandas group-by difference

这是我的问题。我不知道如何描述它,所以我只举一个例子。

PostForm

在这里," a"是用户ID," b"是时候了," k"是二进制指示标志。 " B"肯定是连续的。 我想得到的是:

request.files.add(
  new http.MultipartFile.fromBytes(
    'some_form_value_name',
    utf8.encode('the string value'),
    contentType: new MediaType('text', 'plain', {'charset': 'utf-8'}),
  ),
);

因此,diff_b是一个时差变量。它显示当前时间点与最后一个时间点之间的持续时间。如果之前从未有过任何动作,则返回nan。此diff_b按a分组。对于每个用户,此diff_b是独立计算的。

任何人都可以修改我的头衔吗?我不知道如何用英语描述它。如此复杂......

谢谢!

2 个答案:

答案 0 :(得分:3)

IIUC

df['New']=df.b.loc[df.k==1]# get all value b when k equal to 1
df.New=df.groupby('a').New.apply(lambda x : x.ffill().shift()) # fillna by froward method , then we need shift.
df.b-df['New']# yield 
Out[260]: 
0     NaN
1     NaN
2     1.0
3     2.0
4     3.0
5     1.0
6     NaN
7     NaN
8     1.0
9     2.0
10    1.0
dtype: float64

答案 1 :(得分:0)

使用cumsum在k == 1之后创建行数据的分区,直到下一个k == 1,并为a

的每一组创建移位
parts = df.groupby('a').k.apply(lambda x: x.shift().cumsum())

分组df.a& parts并计算b&之间的差异每组b.min()

vals = df.groupby([df.a, parts]).b.apply(lambda x: x-x.min()+1)

当part == 0&时将值设置为null分配回数据框

df['diff_b'] = np.select([parts!=0], [vals], np.nan)

输出:

    a  b  k  diff_b
0   0  0  0     NaN
1   0  1  1     NaN
2   0  2  0     1.0
3   0  3  0     2.0
4   0  4  1     3.0
5   0  5  0     1.0
6   1  0  0     NaN
7   1  1  1     NaN
8   1  2  0     1.0
9   1  3  1     2.0
10  1  4  0     1.0