我在SQL Server中有一个表,有大约600万条记录。我的问题是我正在使用Python(具有levenshtein距离)运行模糊的模糊逻辑,以获取与以下字符串进行比较的比率:
token_sort_ratio(string1,string2)
它位于for loop
内,并将比率插入相应列的每一行(“分数”)。
问题是需要大约4个小时来处理所有记录,我想知道它是否正常,或者是否存在可以在更短的时间内处理那么多记录的更好的选择(大数据或其他方法)?
注意:我想使用带有levenshtein距离的Fuzzy Wuzzy逻辑。
注2:我不把代码放在这里,因为它很大,但是逻辑是:
for (~6 millions)
score = token_sort_ratio
insert value on the table