如果我有一个名字矢量,请说:
a = c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell")
我希望使用levenshteinSim
或类似内容在此向量中获得相似性得分。但是,我不想让它得分。例如,"tom" #1
可以对"tom" #3
进行评分。并且不会针对"tom" #1
返回"tom" #1
的分数,以免自我评分。
我以前使用两个不同的向量a
和b
完成了它。但是,如果我将其用于相同的向量,那么"tom" #1
将对"tom" #1
进行评分,这是我想要避免的。
有办法做到这一点吗?
答案 0 :(得分:0)
您可以使用combn
生成a
的所有无序元素对:
a <- c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell")
df <- data.frame(t(combn(a, 2)), stringsAsFactors = FALSE)
df$sim <- RecordLinkage::levenshteinSim(df$X1, df$X2)
head(df)
# X1 X2 sim
# 1 tom tommy 0.6
# 2 tom alex 0.0
# 3 tom tom 1.0
# 4 tom alexis 0.0
# 5 tom Alex 0.0
# 6 tom jenny 0.0