找到一列的重复行,然后添加其他列的对应行

时间:2018-10-24 09:08:03

标签: python pandas numpy

我想检查一列的重复行,并添加其他列的对应行。 如果日期范围如下:

 A     B         C         D  E  F  G  
13348  xyzqr     324580    1  1  1  1
13348  grpret    325810    4  4  4  4
45832  gberthh   258729    2  1  3  4
45832  bhdrffe   025892    2  1  1  4
58712  bgrtw     984562    2  2  2  2
76493  hzrt      638495    1  1  1  2
643509 .         T648501   1  1  1  1
643509 .         R648501   1  1  1  1

之后,添加列(B,C,D,E,F)的相应行必须检查相应行的所有列是否相等。如果相等,则将相同的数字赋予其他列,否则为“ 0”。
  对于上面的示例,由于有两个重复的行13348,并且对应行的相加使(D = 5,E = 5,F = 5,G = 5)的每一列为5,因此输出应为5。 ,因为45832添加后具有不同的列(D = 4,E = 2,F = 4,G = 8)值,因此输出应为0。
  剩余的列应为重复行的最小索引值。

输出应如下:

   A     B       C       D 
  13348  xyzqr   324580  5
  45832  gberthh 258729  0
  58712  bgrtw   984562  2
  76493  hzrt    638495  0
  643509 .       T648501 2

我很高兴知道一些建议。

1 个答案:

答案 0 :(得分:1)

我认为需要:

cols = ['D','E','F','G']
#for each group transpose df and check if all duplicates
df1 = df.groupby('A')[cols].apply(lambda x: x.T.duplicated(keep=False))
#for duplicates aggregate sum else 0
arr = np.where(df1.all(axis=1), df.groupby('A')[cols[0]].sum(), 0)
#remove unnecessary columns and add new, get first rows per column A
df = df.drop(cols, axis=1).drop_duplicates('A').assign(D=arr)
print (df)
        A        B        C  D
0   13348    xyzqr   324580  5
2   45832  gberthh   258729  0
4   58712    bgrtw   984562  2
5   76493     hzrt   638495  0
6  643509        .  T648501  2

检查所有组是否都是重复值的替代解决方案:

cols = ['D','E','F','G']
m = df.groupby('A')[cols].apply(lambda x: x.T.duplicated(keep=False).all())
print (m)
A
13348     True
45832    False
dtype: bool

arr = np.where(m, df.groupby('A')[cols[0]].sum(), 0)
df = df.drop(cols, axis=1).drop_duplicates('A').assign(D=arr)
print (df)
        A        B        C  D
0   13348    xyzqr   324580  5
2   45832  gberthh   258729  0
4   58712    bgrtw   984562  2
5   76493     hzrt   638495  0
6  643509        .  T648501  2