在新列中添加唯一标识符,直到另一列满足条件

时间:2019-02-25 22:59:42

标签: python dataframe dask

我有一个npartition = 8的dask数据帧,这是数据的快照:

      id1    id2     Page_nbr    record_type     group_id
      St1    Sc1     3             START             1
      Sc1    St1     5              ADD              1    
      Sc1    St1     9             OTHER             1 
      Sc2    St2     34            START             2
      Sc2    St2     45           DURATION           2
      Sc2    St2     65             END              2
      Sc3    Sc3     4              START            3 

我想在record_type之后添加一列,并根据记录类型的条件添加唯一的group_id,因此,直到下一个record_type = START添加相同的唯一group_id时,输出如下所示:

{{1}}

group_id可以是任何唯一数字。由于数据帧很大,因此在行上进行迭代可能不是最佳选择。想知道是否有任何Python方式?

1 个答案:

答案 0 :(得分:0)

采用“ record_type”列,与“ START”进行比较,然后计算vblf

cumsum