应用错误收集

增量聚类

时间：2011-08-06 06:00:13

标签： string cluster-analysis

请为有效的增量群集建议一些方法。我试图将类似的字符串放到一个组中。相互比较效率不高。我所想的是用簇代表检查每个输入字符串（这意味着该集群中的字符串有一个代表性模式，以便新字符串只能与之比较）。因此，任何事情都可以开始，以便群集中几乎相似的字符串可以由一个通用模式（可能）以尽可能高的准确度来表示。通过这种方式，新输入只是与集群代表进行比较，如果发现相似则保留在其中。群集和输入的数量不固定...字符串是流式的，可以是任何模式长度。

我希望我很清楚。请帮助我完成一些任务。

1 个答案:

答案 0 :(得分：0)

听起来问题的一部分就是找到一个代表性模式用于每个群集。

对字符串进行聚类的常用方法是将它们视为向量，并使用余弦相似度作为距离度量：http://en.wikipedia.org/wiki/Cosine_distance

当簇中的字符串表示为向量时，我认为簇的中心只是标准化向量的总和。使用此总和作为代表来比较每个新字符串。