Question

我有一个这样的数据框： pta corpus

pta_content的每一行都是优惠贸易协议的内容。我试图计算每一行之间的相似性，并获得一个名为pta的相似性矩阵。

我尝试过stringdist，似乎stringdist用于两个数据帧。如何计算数据框中每一行之间的成对相似性？

Answer 1

a <- c("abcdefg", "hijklmnop", "qrstuvwxyz")
b <- c("abXdeXg", "hiXklXnoX", "Xrstuvwxyz")

library(RecordLinkage)
levenshteinSim(a, b)

<强>结果

[1] 0.7142857 0.6666667 0.9000000

由于数据不存在，我无能为力。