data.frame中字符串行之间的相似性

时间:2018-03-29 10:14:53

标签: r

我有一个这样的数据框: pta corpus

pta_content的每一行都是优惠贸易协议的内容。我试图计算每一行之间的相似性,并获得一个名为pta的相似性矩阵。

我尝试过stringdist,似乎stringdist用于两个数据帧。如何计算数据框中每一行之间的成对相似性?

1 个答案:

答案 0 :(得分:0)

a <- c("abcdefg", "hijklmnop", "qrstuvwxyz")
b <- c("abXdeXg", "hiXklXnoX", "Xrstuvwxyz")

library(RecordLinkage)
levenshteinSim(a, b)

<强>结果

[1] 0.7142857 0.6666667 0.9000000

由于数据不存在,我无能为力。

这取自Similarity scores based on string comparison in R (edit distance)