这是我的问题。我不知道如何描述它,所以我只举一个例子。
PostForm
在这里," a"是用户ID," b"是时候了," k"是二进制指示标志。 " B"肯定是连续的。 我想得到的是:
request.files.add(
new http.MultipartFile.fromBytes(
'some_form_value_name',
utf8.encode('the string value'),
contentType: new MediaType('text', 'plain', {'charset': 'utf-8'}),
),
);
因此,diff_b是一个时差变量。它显示当前时间点与最后一个时间点之间的持续时间。如果之前从未有过任何动作,则返回nan。此diff_b按a分组。对于每个用户,此diff_b是独立计算的。
任何人都可以修改我的头衔吗?我不知道如何用英语描述它。如此复杂......
谢谢!
答案 0 :(得分:3)
IIUC
df['New']=df.b.loc[df.k==1]# get all value b when k equal to 1
df.New=df.groupby('a').New.apply(lambda x : x.ffill().shift()) # fillna by froward method , then we need shift.
df.b-df['New']# yield
Out[260]:
0 NaN
1 NaN
2 1.0
3 2.0
4 3.0
5 1.0
6 NaN
7 NaN
8 1.0
9 2.0
10 1.0
dtype: float64
答案 1 :(得分:0)
使用cumsum在k == 1
之后创建行数据的分区,直到下一个k == 1
,并为a
parts = df.groupby('a').k.apply(lambda x: x.shift().cumsum())
分组df.a
& parts
并计算b
&之间的差异每组b.min()
vals = df.groupby([df.a, parts]).b.apply(lambda x: x-x.min()+1)
当part == 0&时将值设置为null分配回数据框
df['diff_b'] = np.select([parts!=0], [vals], np.nan)
输出:
a b k diff_b
0 0 0 0 NaN
1 0 1 1 NaN
2 0 2 0 1.0
3 0 3 0 2.0
4 0 4 1 3.0
5 0 5 0 1.0
6 1 0 0 NaN
7 1 1 1 NaN
8 1 2 0 1.0
9 1 3 1 2.0
10 1 4 0 1.0