我必须比较两个数据框架中的员工 所以我创建了一个多索引来计算它们之间的模糊分数
df = pd.MultiIndex.from_product([df1['employee'],df2['employee']]).to_series().reset_index()
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
df.apply(lambda x:fuzz.ratio(x['employee'],x['employee']),axis =1)
我在这里得到了两对from_product的实例?
('约翰''乔') ('乔''约翰&#39)
我怎样才能完成一对,因为两个对的模糊评分相同
答案 0 :(得分:0)
假设所有对都位于名为' pairs'的列中,您可以创建一个新列,其中包含这些有序和删除重复项,类似于以下内容:
df['ordered_pairs'] = [' '.join(sorted(x)) for x in df['pairs']]
df.drop_duplicates('ordered_pairs',inplace=True)
如果您没有将它们放在一列中,您可以使用reset_index和压缩列来制作一个