R:可变大小的模糊名称匹配

时间:2015-05-12 06:25:29

标签: r fuzzy-comparison

我一直在努力将源集与主客户名集进行匹配,而这可以通过在R中使用-adist来实现,但现在我已经使用了200万个源集和500k主集,这里我们不能使用adist,因为它不支持长向量,所以我将数据分块为小集现在我有70 k的源集和20k的主集,而这里的数据集大小各不相同,因此不能使用adist,因为它不支持可变大小的集合,我已尝试使用各种其他方法来实现amatchpmatchagrep,但没有多少帮助,我已经提到了这些  我发现但找不到解决方案的网站。

我尝试使用levenshteinDistlevenshteinSimjarowinkler,但是对于庞大的数据框实施有问题,我是否可以找到类似于this solution using jarowinkler for different size of sets的数据框解决方案

0 个答案:

没有答案