R中的快速Levenshtein距离?

时间:2010-07-05 20:50:08

标签: r performance packages levenshtein-distance stringdist

是否有包含Levenshtein距离计数功能的包,它是作为C或Fortran代码实现的?我有很多要比较的字符串,而来自stringMatch的{​​{1}}对此来说太慢了。

4 个答案:

答案 0 :(得分:18)

levenshteinDist(来自RecordLinkage包)调用已编译的C代码。试一试。

答案 1 :(得分:14)

stringdist包中的stringdist也会这样做,在某些情况下(1)<{1}}甚至比levenshteinDist更快

答案 2 :(得分:6)

您也可以stringDist尝试Biostrings

答案 3 :(得分:1)

您还可以使用levenshtein_distance()软件包中的textTinyR。当涉及到大约30k个字符的较大字符向量时,我在所有其他软件包中都遇到了“ calloc”内存错误。只有textTinyR为我工作!