我有一个包含许多重复行的数据框。数据集具有数百行和列。
每行都有一个唯一的标识符。我想创建一个仅包含唯一行的数据框。然后,我想创建一个映射,将唯一行数据框中的标识符映射到原始数据帧的标识符。
例如
import pandas as pd
# Dummy data
df = pd.DataFrame({'col_1': [1, 2, 2, 1, 2, 3],
'col_2': [2, 4, 4, 2, 4, 2],
'col_3': [3, 2, 2, 3, 2, 7]},
index=['A', 'B', 'C', 'D', 'E', 'F'])
df
Out[11]:
col_1 col_2 col_3
A 1 2 3
B 2 4 2
C 2 4 2
D 1 2 3
E 2 4 2
F 3 2 7
# Unique row dataframe
df_unique = df.drop_duplicates()
df_unique()
Out[12]:
col_1 col_2 col_3
A 1 2 3
B 2 4 2
F 3 2 7
# Mapping from df_unique to df
# Creating this mapping is the problem
mapping = {'A': ('A', 'D'),
'B': ('B', 'C', 'E'),
'F': ('F')}
在这种情况下,行“ A”和“ D”相等,并且“ A”映射到drop_duplicates()
之前的“ A”和“ D”。
如何创建mapping
?
在这里,我使用drop_duplicates()
创建唯一行数据帧。这不是必需的。如果有人有更好的主意,则映射不必是字典。
答案 0 :(得分:2)
在DataFrame的所有列中将GroupBy.agg
与first
和tuple
一起使用,然后创建元组字典:
mapping = (df.reset_index()
.groupby(df.columns.tolist())['index']
.agg(['first',tuple])
.set_index('first')['tuple']
.to_dict())
print (mapping)
{'A': ('A', 'D'), 'B': ('B', 'C', 'E'), 'F': ('F',)}