如何删除行“ row [patient_id]”重复且行“ row [Target] == 0”的行?

时间:2019-04-23 22:01:57

标签: python csv dataframe

我要从.csv文件中删除以下所有行:

1)row[patient_id]是重复的

2)row[Target] == 0

列名: patientId x y w h Target

patientId        x      y     w       h      Target
'2341-vcb1'    '10'   '20'   '30'   '40'      '1'
'2341-vcb1'    '70'   '20'   '70'   '40'      '1'
'2341-vcb1'                                   '0'   <-delete it
'1111-xcsc'                                   '0'
'2341-v233'    '34'   '43'   '10'   '29'      '1'

image

df2 = df2.drop_duplicates(subset ='PatientId'&& ???)

2 个答案:

答案 0 :(得分:1)

您可以做的一件事是创建一个列,在其中计算目标的累计总和。首先,按PatientId对df排序,然后按降序对目标进行排序,然后使用groupby和cumsum函数将目标相加(称为target_sum)。拥有该列之后,您可以删除target = 0且target_sum> 0的行。

其背后的逻辑:

  • 如果id在target == 0的行上方有其他有效行(因为我们已经对其进行了排序),则target_sum应该为> 0。因此,如果我们看到target_sum> 0,则表明该行具有重复的ID。
  • 如果target_sum = 0,则意味着特定的id没有具有有效值的任何其他行,因此我们要保留它。

df['target_sum'] = df.sort_values(by=['patientID','Target'], ascending=False).Target.groupby('patientID').cumsum()

df = df[~ (df['Target'] == 0) & (df['target_sum' > 0])] 

答案 1 :(得分:0)

您可以尝试

import numpy as np

df[~np.logical_and(df.patientId.duplicated(), df.Target==0)]

# patientId     x     y     w     h  Target
# 0  2341-vcb1  10.0  20.0  30.0  40.0       1                
# 1  2341-vcb1  70.0  20.0  70.0  40.0       1                
# 3  1111-xcsc   NaN   NaN   NaN   NaN       0             
# 4  2341-v233  34.0  43.0  10.0  29.0       1