我有一个带有文字列的数据框。但是这些词包含拼写错误和其他问题。我想通过使用层次化群集来群集它们。
我的代码是:
Levenshtein <- adist(x$word, partial= TRUE, ignore.case = TRUE)
group <- hclust(dist(Levenshtein), method="ward.D)
test <- as.data.frame(cutree(group, 54))
但是如何计算最佳阈值并将其分组?另外,此代码是否适合文本数据?
我想在同一集群中一起创建一个名称相似的新列。