我有一个csv,其中包含许多行,其中有些行与'gmc_number'
重复。对于某些条目,有2个条目具有相同的gmc_number,对于其他条目,则有2个以上。
对于每组重复项,我想根据以下一组标准将行分配为delete
类别或keep
类别:
1。 Login_dt:
如果只有一行的登录名不是null,则将其标记为keep
,其余标记为delete
如果有多行的非login_dt
为非空,则继续执行这些行的步骤2,并将所有具有空login_dt
的行标记为delete
。
如果所有行都为空login_dt
,则不要标记任何行,并继续执行这些行的步骤2。
2。哈希
如果只有一行具有非空的hash
,则将此行标记为keep
,其余的标记为delete
如果多行中有非空hash
,则使用这些值继续执行第3步,并将所有具有空hash
的行标记为delete
。
如果所有行都为空hash
,则不要标记任何行,并继续执行这些行的步骤3。
3。 Register_dt
现在,我们要按最新的register_dt
进行订购。将最新的register_dt
标记为keep
,其余标记为delete
。
我认为python是执行此操作的好方法。但是我不知道如何对重复项执行此操作。任何指导将不胜感激。