R

时间:2019-01-16 15:22:23

标签: text-mining hierarchical-clustering

我有一个带有文字列的数据框。但是这些词包含拼写错误和其他问题。我想通过使用层次化群集来群集它们。

我的代码是:

Levenshtein <- adist(x$word, partial= TRUE, ignore.case = TRUE)

group <- hclust(dist(Levenshtein), method="ward.D)

test <- as.data.frame(cutree(group, 54))

但是如何计算最佳阈值并将其分组?另外,此代码是否适合文本数据?

我想在同一集群中一起创建一个名称相似的新列。

0 个答案:

没有答案