R - 将字符串向量与自身匹配

时间:2018-01-11 08:34:22

标签: r matrix matching

所以我有一个包含大约35000个条目的字符串向量,我想使用以下函数(RecordLinkage :: levenshteinSim)将每个字符串与每个其他字符串进行匹配,然后使用包含所有结果的矩阵。告诉我每个字符串与其他字符串的相似程度。

我该怎么做? 谢谢!

1 个答案:

答案 0 :(得分:0)

矩阵$ 35000 \次35000 $对于许多机器而言可能有点太大,即使它足以存储上三角或下三角。

如果你有大量的内存,你可以存储这么大的矩阵,这样的东西可能有用:

> a <- 1:4
> myfun <- function(x,y) { x+y }
> outer(a,a, FUN=myfun)
      [,1] [,2] [,3] [,4]
[1,]    2    3    4    5
[2,]    3    4    5    6
[3,]    4    5    6    7
[4,]    5    6    7    8

代替a,您可以提供字符串向量,代替myfun计算字符串间距离的函数。

如果失败,你可以随时循环。