Question

我需要根据Dataframe中的多个列来识别重复的行。剩余的列（PKID - 具有整数值）应合并为整数列表。示例：输入数据:(第0行和第1行是重复的，但PKID列除外）

  Col1  PKID   SUBJECT ID
0  A    58305    ABC    X1
1  A    57011    ABC    X1
2  B    12345    XYZ    X1

预期结果：

  Col1   PKID            SUBJECT ID
0  A    [58305,57011]    ABC    X1
1  B    12345            XYZ    X1

因此，如果除PKID之外的所有列都有重复项，则将所有条目合并为1，PKID值为整数列表。

如何实现这一目标？

Answer 1

您需要groupby + apply：

df.groupby(df.columns.difference(['PKID']).tolist())\
                 .PKID.apply(pd.Series.unique).reset_index()

  Col1  ID SUBJECT            PKID
0    A  X1     ABC  [58305, 57011]
1    B  X1     XYZ         [12345]

基于Pandas.Dataframe

1 个答案: