如何使用python检查两个不同excel文件中两个列表之间的相似性?

时间:2018-10-29 09:31:38

标签: python cosine-similarity jaro-winkler

我有两个包含客户名称的列表。名称可以相似或不同。如何使用python查找这两个列表之间的相似性?

具有相似性之后,我想将一个excel文件中的相应数据拉到另一个文件中。

示例:

清单1:

Customer Name       Unique ID
IBM                 2365
BOA                 5456
BMW AG              2456

清单2:

Customer Name     Unique ID
IBM Pvt Ltd        
BMW Group
Robert Bosch
BOA Ltd

这只是示例数据。实际数据包含近30万行。

我通过将两个列表作为excel文件分别传递给函数来尝试了Jaccard相似性,但是结果(即Jaccard相似性)始终为零。

编辑:如何遍历两个列表,将每个元素与其他列表的所有元素进行比较,并建立距离矩阵?

然后,我想按降序对矩阵的每一行进行排序,以了解它们之间最接近的匹配项。还是在建立矩阵后还有其他更好的方法来知道最接近的匹配项?

1 个答案:

答案 0 :(得分:0)

您能详细说明一下您的问题吗?

“相似性beetwen 2列表”是什么意思?

说列表时,是指CSV / Excel列表或Python列表。 如果您正在查看距离beetwen字符串,则可能必须查看Levenshtein算法。 https://www.geeksforgeeks.org/edit-distance-dp-5/

Pythonic-https://www.python-course.eu/levenshtein_distance.php

由于您的数据量很大,因此Alsp Check外部合并排序策略