所以我有一个包含大约35000个条目的字符串向量,我想使用以下函数(RecordLinkage :: levenshteinSim)将每个字符串与每个其他字符串进行匹配,然后使用包含所有结果的矩阵。告诉我每个字符串与其他字符串的相似程度。
我该怎么做? 谢谢!
答案 0 :(得分:0)
矩阵$ 35000 \次35000 $对于许多机器而言可能有点太大,即使它足以存储上三角或下三角。
如果你有大量的内存,你可以存储这么大的矩阵,这样的东西可能有用:
> a <- 1:4
> myfun <- function(x,y) { x+y }
> outer(a,a, FUN=myfun)
[,1] [,2] [,3] [,4]
[1,] 2 3 4 5
[2,] 3 4 5 6
[3,] 4 5 6 7
[4,] 5 6 7 8
代替a
,您可以提供字符串向量,代替myfun
计算字符串间距离的函数。
如果失败,你可以随时循环。