Question

我必须比较两个数据框架中的员工所以我创建了一个多索引来计算它们之间的模糊分数

 df = pd.MultiIndex.from_product([df1['employee'],df2['employee']]).to_series().reset_index()
 from fuzzywuzzy import fuzz
 from fuzzywuzzy import process
 df.apply(lambda x:fuzz.ratio(x['employee'],x['employee']),axis =1)

我在这里得到了两对from_product的实例？

（＆＃39;约翰＆＃39;＆＃39;乔＆＃39;）（＆＃39;乔＆＃39;＆＃39;约翰＆＃39）

我怎样才能完成一对，因为两个对的模糊评分相同

Answer 1

假设所有对都位于名为＆＃39; pairs＆＃39;的列中，您可以创建一个新列，其中包含这些有序和删除重复项，类似于以下内容：

df['ordered_pairs'] = [' '.join(sorted(x)) for x in df['pairs']]
df.drop_duplicates('ordered_pairs',inplace=True)

如果您没有将它们放在一列中，您可以使用reset_index和压缩列来制作一个

如何在pandas中获得唯一元组多索引from_product

1 个答案: