应用错误收集

我一直在努力将源集与主客户名集进行匹配，而这可以通过在R中使用-adist来实现，但现在我已经使用了200万个源集和500k主集，这里我们不能使用adist，因为它不支持长向量，所以我将数据分块为小集现在我有70 k的源集和20k的主集，而这里的数据集大小各不相同，因此不能使用adist，因为它不支持可变大小的集合，我已尝试使用各种其他方法来实现amatch，pmatch，agrep，但没有多少帮助，我已经提到了这些我发现但找不到解决方案的网站。

Super fuzzy name checking?
Faster R code for fuzzy name matching using agrep() for multiple patterns...?
Record linking and fuzzy name matching in big datasets in R
R: String Fuzzy Matching using jarowinkler
Fuzzy string matching in r

我尝试使用levenshteinDist，levenshteinSim和jarowinkler，但是对于庞大的数据框实施有问题，我是否可以找到类似于this solution using jarowinkler for different size of sets的数据框解决方案

R：可变大小的模糊名称匹配

0 个答案: