如何在pandas中获得唯一元组多索引from_product

时间:2017-02-28 16:19:05

标签: python pandas multi-index

我必须比较两个数据框架中的员工 所以我创建了一个多索引来计算它们之间的模糊分数

 df = pd.MultiIndex.from_product([df1['employee'],df2['employee']]).to_series().reset_index()
 from fuzzywuzzy import fuzz
 from fuzzywuzzy import process
 df.apply(lambda x:fuzz.ratio(x['employee'],x['employee']),axis =1)

我在这里得到了两对from_product的实例?

('约翰''乔') ('乔''约翰&#39)

我怎样才能完成一对,因为两个对的模糊评分相​​同

1 个答案:

答案 0 :(得分:0)

假设所有对都位于名为' pairs'的列中,您可以创建一个新列,其中包含这些有序和删除重复项,类似于以下内容:

df['ordered_pairs'] = [' '.join(sorted(x)) for x in df['pairs']]
df.drop_duplicates('ordered_pairs',inplace=True)

如果您没有将它们放在一列中,您可以使用reset_index和压缩列来制作一个