我有两个包含客户名称的列表。名称可以相似或不同。如何使用python查找这两个列表之间的相似性?
具有相似性之后,我想将一个excel文件中的相应数据拉到另一个文件中。
示例:
清单1:
Customer Name Unique ID
IBM 2365
BOA 5456
BMW AG 2456
清单2:
Customer Name Unique ID
IBM Pvt Ltd
BMW Group
Robert Bosch
BOA Ltd
这只是示例数据。实际数据包含近30万行。
我通过将两个列表作为excel文件分别传递给函数来尝试了Jaccard相似性,但是结果(即Jaccard相似性)始终为零。
编辑:如何遍历两个列表,将每个元素与其他列表的所有元素进行比较,并建立距离矩阵?
然后,我想按降序对矩阵的每一行进行排序,以了解它们之间最接近的匹配项。还是在建立矩阵后还有其他更好的方法来知道最接近的匹配项?
答案 0 :(得分:0)
您能详细说明一下您的问题吗?
“相似性beetwen 2列表”是什么意思?
说列表时,是指CSV / Excel列表或Python列表。 如果您正在查看距离beetwen字符串,则可能必须查看Levenshtein算法。 https://www.geeksforgeeks.org/edit-distance-dp-5/
Pythonic-https://www.python-course.eu/levenshtein_distance.php。
由于您的数据量很大,因此Alsp Check外部合并排序策略