删除重复项,但保留对删除行的引用

时间:2019-11-12 14:30:49

标签: python pandas

我有一个包含许多重复行的数据框。数据集具有数百行和列。

每行都有一个唯一的标识符。我想创建一个仅包含唯一行的数据框。然后,我想创建一个映射,将唯一行数据框中的标识符映射到原始数据帧的标识符。

例如

import pandas as pd

# Dummy data
df = pd.DataFrame({'col_1': [1, 2, 2, 1, 2, 3],
                   'col_2': [2, 4, 4, 2, 4, 2],
                   'col_3': [3, 2, 2, 3, 2, 7]},
                  index=['A', 'B', 'C', 'D', 'E', 'F'])

df
Out[11]: 
   col_1  col_2  col_3
A      1      2      3
B      2      4      2
C      2      4      2
D      1      2      3
E      2      4      2
F      3      2      7

# Unique row dataframe
df_unique = df.drop_duplicates()
df_unique()
Out[12]: 
   col_1  col_2  col_3
A      1      2      3
B      2      4      2
F      3      2      7

# Mapping from df_unique to df
# Creating this mapping is the problem
mapping = {'A': ('A', 'D'),
           'B': ('B', 'C', 'E'),
           'F': ('F')}

在这种情况下,行“ A”和“ D”相等,并且“ A”映射到drop_duplicates()之前的“ A”和“ D”。

如何创建mapping

在这里,我使用drop_duplicates()创建唯一行数据帧。这不是必需的。如果有人有更好的主意,则映射不必是字典。

1 个答案:

答案 0 :(得分:2)

在DataFrame的所有列中将GroupBy.aggfirsttuple一起使用,然后创建元组字典:

mapping = (df.reset_index()
             .groupby(df.columns.tolist())['index']
             .agg(['first',tuple])
             .set_index('first')['tuple']
             .to_dict())
print (mapping)
{'A': ('A', 'D'), 'B': ('B', 'C', 'E'), 'F': ('F',)}