使用matlab进行字符串聚类?

时间:2015-06-15 19:28:52

标签: matlab cluster-analysis

我有一个约200k条目的单元格数组,包含相对较小的字符串(1-2个字)。我试图根据字符串相似性对它们进行聚类。我尝试使用levenshtein距离创建一个距离矩阵(使用循环将每个字符串与所有其他字符串进行比较)以使用分层或kmeans聚类,但是一旦形成距离矩阵,我就很困惑如何使用它(特别是在matlab中)。如果有人有任何想法或建议,我们将不胜感激。

1 个答案:

答案 0 :(得分:0)

k-means不能对距离矩阵进行操作

它仅使用表示,并且偏离均值的偏差(=方差)。

层次聚类在距离矩阵上工作正常。请参阅文档,了解如何传递预先计算的距离矩阵。