我有一个数据帧,该数据帧具有间隔和与每个间隔关联的标签。我需要对行进行分组和聚合,并与其他行隔开给定的距离。
例如,分组行的开始/结束在其他行的开始/结束的3个单位内的行将其label
字段串联起来:
In [16]: df = pd.DataFrame([
...: [ 1, 3,'a'], [ 4,10,'b'],
...: [15,17,'c'], [18,20,'d'],
...: [27,30,'e'], [31,40,'f'], [41,42,'g'],
...: [50,54,'h']],
...: columns=['start', 'end', 'label'])
...:
In [17]: df
Out[17]:
start end label
0 1 3 a
1 4 10 b
2 15 17 c
3 18 20 d
4 27 30 e
5 31 40 f
6 41 42 g
7 50 54 h
所需的输出:
In [18]: df_desired = group_by_interval(df)
In [19]: df_desired
Out[19]:
start end label
0 1 10 a b
1 15 20 c d
2 27 30 e f g
3 50 54 h
如何使用数据帧按间隔执行这种分组?
我找到了一个类似的here,但是有点不同,因为我不知道在哪里剪掉一个先验。
答案 0 :(得分:4)
您可以根据条件和聚合来创建石斑鱼
grouper = ((df['start'] - df['end'].shift()) > 3).cumsum()
df.groupby( grouper).agg({'start' : 'first', 'end' : 'last', 'label': lambda x: ' '.join(x)})
start end label
0 1 10 a b
1 15 20 c d
2 27 42 e f g
3 50 54 h