我一直在努力将源集与主客户名集进行匹配,而这可以通过在R中使用-adist
来实现,但现在我已经使用了200万个源集和500k主集,这里我们不能使用adist
,因为它不支持长向量,所以我将数据分块为小集现在我有70 k的源集和20k的主集,而这里的数据集大小各不相同,因此不能使用adist
,因为它不支持可变大小的集合,我已尝试使用各种其他方法来实现amatch
,pmatch
,agrep
,但没有多少帮助,我已经提到了这些
我发现但找不到解决方案的网站。
Faster R code for fuzzy name matching using agrep() for multiple patterns...?
我尝试使用levenshteinDist
,levenshteinSim
和jarowinkler
,但是对于庞大的数据框实施有问题,我是否可以找到类似于this solution using jarowinkler for different size of sets的数据框解决方案