标签: filter cluster-analysis k-means spam levenshtein-distance
我正在尝试使用k-means和Levenshtein distance构建邮件垃圾邮件过滤器(请考虑此强制要求)。我有一个问题,当我必须弄清楚每个集群的质心时,如何计算“字符串”的平均值?
k-means
Levenshtein distance
答案 0 :(得分:0)
K-means 不能用于字符串。
通过计算算术平均值来最小化最小二乘法。这只是在连续变量上定义(和有意义的)。
在字符串上你可以使用PAM而不是k-medoids。