计算最小字符串距离并找到最小化距离的行

时间:2017-07-28 06:50:42

标签: r string computation

我有一个数据框,其中包含一个类'字符'。我试图(a)以某种方式创建一个新变量,总结该列中行的值与列中最相似的其他值的相似程度,以及(b)标识该行中最相似的可用值的行列中给定值的列。

我现有的方法是使用stringdist包(https://cran.r-project.org/web/packages/stringdist/stringdist.pdf)来计算编辑距离度量,除了这似乎是计算要求非常高并且等待数小时后仍无法计算,但它也不是清除如何基于从同一向量中的其他值中找到给定值的距离来搜索每个观察的最小距离。此外,它似乎不会返回最相似值的索引。

是否有任何计算上易于处理的方法来为每个观察点和最小化距离的比较行开发最小距离度量?

# Create data
data.frame(x = c("a","abbb","aa", "abbbkdjsfjldkfjldfkjl"))

# Want something like
data.frame(smallest_distance = c(1,20,1,90), closest_match = c(3,3,1,2))  

0 个答案:

没有答案