增量聚类

时间:2011-08-06 06:00:13

标签: string cluster-analysis

请为有效的增量群集建议一些方法。我试图将类似的字符串放到一个组中。相互比较效率不高。我所想的是用簇代表检查每个输入字符串(这意味着该集群中的字符串有一个代表性模式,以便新字符串只能与之比较)。因此,任何事情都可以开始,以便群集中几乎相似的字符串可以由一个通用模式(可能)以尽可能高的准确度来表示。通过这种方式,新输入只是与集群代表进行比较,如果发现相似则保留在其中。群集和输入的数量不固定...字符串是流式的,可以是任何模式长度。

我希望我很清楚。请帮助我完成一些任务。

1 个答案:

答案 0 :(得分:0)

听起来问题的一部分就是找到一个代表性模式用于每个群集。

对字符串进行聚类的常用方法是将它们视为向量,并使用余弦相似度作为距离度量:http://en.wikipedia.org/wiki/Cosine_distance

当簇中的字符串表示为向量时,我认为簇的中心只是标准化向量的总和。使用此总和作为代表来比较每个新字符串。