Python模糊的模糊百万条记录

时间:2018-09-20 15:38:26

标签: python sql-server fuzzy-search

我在SQL Server中有一个表,有大约600万条记录。我的问题是我正在使用Python(具有levenshtein距离)运行模糊的模糊逻辑,以获取与以下字符串进行比较的比率:

token_sort_ratio(string1,string2) 

它位于for loop内,并将比率插入相应列的每一行(“分数”)。

问题是需要大约4个小时来处理所有记录,我想知道它是否正常,或者是否存在可以在更短的时间内处理那么多记录的更好的选择(大数据或其他方法)?

注意:我想使用带有levenshtein距离的Fuzzy Wuzzy逻辑。

注2:我不把代码放在这里,因为它很大,但是逻辑是:

for (~6 millions)
   score = token_sort_ratio
   insert value on the table

0 个答案:

没有答案