Question

所以我有一个包含大约35000个条目的字符串向量，我想使用以下函数（RecordLinkage :: levenshteinSim）将每个字符串与每个其他字符串进行匹配，然后使用包含所有结果的矩阵。告诉我每个字符串与其他字符串的相似程度。

我该怎么做？谢谢！

Answer 1

矩阵$ 35000 \次35000 $对于许多机器而言可能有点太大，即使它足以存储上三角或下三角。

如果你有大量的内存，你可以存储这么大的矩阵，这样的东西可能有用：

> a <- 1:4
> myfun <- function(x,y) { x+y }
> outer(a,a, FUN=myfun)
      [,1] [,2] [,3] [,4]
[1,]    2    3    4    5
[2,]    3    4    5    6
[3,]    4    5    6    7
[4,]    5    6    7    8

代替a，您可以提供字符串向量，代替myfun计算字符串间距离的函数。

如果失败，你可以随时循环。

R - 将字符串向量与自身匹配

1 个答案: