我有一个npartition = 8的dask数据帧,这是数据的快照:
id1 id2 Page_nbr record_type group_id
St1 Sc1 3 START 1
Sc1 St1 5 ADD 1
Sc1 St1 9 OTHER 1
Sc2 St2 34 START 2
Sc2 St2 45 DURATION 2
Sc2 St2 65 END 2
Sc3 Sc3 4 START 3
我想在record_type之后添加一列,并根据记录类型的条件添加唯一的group_id,因此,直到下一个record_type = START添加相同的唯一group_id时,输出如下所示:
{{1}}
group_id可以是任何唯一数字。由于数据帧很大,因此在行上进行迭代可能不是最佳选择。想知道是否有任何Python方式?
答案 0 :(得分:0)
采用“ record_type”列,与“ START”进行比较,然后计算vblf
:
cumsum