我有一个这样的数据框: pta corpus
pta_content的每一行都是优惠贸易协议的内容。我试图计算每一行之间的相似性,并获得一个名为pta的相似性矩阵。
我尝试过stringdist,似乎stringdist用于两个数据帧。如何计算数据框中每一行之间的成对相似性?
答案 0 :(得分:0)
a <- c("abcdefg", "hijklmnop", "qrstuvwxyz")
b <- c("abXdeXg", "hiXklXnoX", "Xrstuvwxyz")
library(RecordLinkage)
levenshteinSim(a, b)
<强>结果强>
[1] 0.7142857 0.6666667 0.9000000
由于数据不存在,我无能为力。
这取自Similarity scores based on string comparison in R (edit distance)