我想检查一列的重复行,并添加其他列的对应行。 如果日期范围如下:
A B C D E F G
13348 xyzqr 324580 1 1 1 1
13348 grpret 325810 4 4 4 4
45832 gberthh 258729 2 1 3 4
45832 bhdrffe 025892 2 1 1 4
58712 bgrtw 984562 2 2 2 2
76493 hzrt 638495 1 1 1 2
643509 . T648501 1 1 1 1
643509 . R648501 1 1 1 1
之后,添加列(B,C,D,E,F)的相应行必须检查相应行的所有列是否相等。如果相等,则将相同的数字赋予其他列,否则为“ 0”。
对于上面的示例,由于有两个重复的行13348,并且对应行的相加使(D = 5,E = 5,F = 5,G = 5)的每一列为5,因此输出应为5。 ,因为45832添加后具有不同的列(D = 4,E = 2,F = 4,G = 8)值,因此输出应为0。
剩余的列应为重复行的最小索引值。
输出应如下:
A B C D
13348 xyzqr 324580 5
45832 gberthh 258729 0
58712 bgrtw 984562 2
76493 hzrt 638495 0
643509 . T648501 2
我很高兴知道一些建议。
答案 0 :(得分:1)
我认为需要:
cols = ['D','E','F','G']
#for each group transpose df and check if all duplicates
df1 = df.groupby('A')[cols].apply(lambda x: x.T.duplicated(keep=False))
#for duplicates aggregate sum else 0
arr = np.where(df1.all(axis=1), df.groupby('A')[cols[0]].sum(), 0)
#remove unnecessary columns and add new, get first rows per column A
df = df.drop(cols, axis=1).drop_duplicates('A').assign(D=arr)
print (df)
A B C D
0 13348 xyzqr 324580 5
2 45832 gberthh 258729 0
4 58712 bgrtw 984562 2
5 76493 hzrt 638495 0
6 643509 . T648501 2
检查所有组是否都是重复值的替代解决方案:
cols = ['D','E','F','G']
m = df.groupby('A')[cols].apply(lambda x: x.T.duplicated(keep=False).all())
print (m)
A
13348 True
45832 False
dtype: bool
arr = np.where(m, df.groupby('A')[cols[0]].sum(), 0)
df = df.drop(cols, axis=1).drop_duplicates('A').assign(D=arr)
print (df)
A B C D
0 13348 xyzqr 324580 5
2 45832 gberthh 258729 0
4 58712 bgrtw 984562 2
5 76493 hzrt 638495 0
6 643509 . T648501 2