请为有效的增量群集建议一些方法。我试图将类似的字符串放到一个组中。相互比较效率不高。我所想的是用簇代表检查每个输入字符串(这意味着该集群中的字符串有一个代表性模式,以便新字符串只能与之比较)。因此,任何事情都可以开始,以便群集中几乎相似的字符串可以由一个通用模式(可能)以尽可能高的准确度来表示。通过这种方式,新输入只是与集群代表进行比较,如果发现相似则保留在其中。群集和输入的数量不固定...字符串是流式的,可以是任何模式长度。
我希望我很清楚。请帮助我完成一些任务。
答案 0 :(得分:0)
听起来问题的一部分就是找到一个代表性模式用于每个群集。
对字符串进行聚类的常用方法是将它们视为向量,并使用余弦相似度作为距离度量:http://en.wikipedia.org/wiki/Cosine_distance
当簇中的字符串表示为向量时,我认为簇的中心只是标准化向量的总和。使用此总和作为代表来比较每个新字符串。