如何在使用k时找到字符串的平均值意味着聚类?

时间:2018-04-06 16:13:47

标签: filter cluster-analysis k-means spam levenshtein-distance

我正在尝试使用k-meansLevenshtein distance构建邮件垃圾邮件过滤器(请考虑此强制要求)。我有一个问题,当我必须弄清楚每个集群的质心时,如何计算“字符串”的平均值?

1 个答案:

答案 0 :(得分:0)

K-means 不能用于字符串。

通过计算算术平均值来最小化最小二乘法。这只是在连续变量上定义(和有意义的)。

在字符串上你可以使用PAM而不是k-medoids。