查找相似文本的最佳匹配并仅保留唯一值

时间:2019-07-20 03:21:59

标签: python algorithm sorting duplicates

我有一个我试图清除的项目名称列表,但它们包含重复项,但有轻微的不匹配。我想找到他们最近的匹配项,并用此匹配项替换所有匹配项。

我正在使用Python和Pandas,并导入了一个文件,该文件的一列中嵌入了Project名称。我做了一些清理工作,并删除了多余的字符来提取项目名称。但有些名称出现了轻微的不匹配。我difflib找到最接近的匹配,但它返回两个值,而最匹配的是自身。

      Project Name  
552   Hilton International
553   Hilton International A

key = df2.iloc[552:553]['Project Name'].tolist()
key = key[0]
difflib.get_close_matches(key, df2['Project Name'].tolist())

预期结果:

      Project Name  
552   Hilton International
553   Hilton International

0 个答案:

没有答案