根据字符串长度

时间:2016-11-16 10:27:28

标签: string cluster-analysis

我有一个字符串列表,如{abb,abgt,acctg,tgbs,abs}等。字符串数由用户定义。我需要将相似长度的字符串聚集在一起。哪种聚类算法适合这种情况,为什么?到目前为止,我知道K-means需要事先了解群集的数量,我无法分辨,因为字符串数量未预定义。

1 个答案:

答案 0 :(得分:0)

迭代你的字符串。将它们存储在地图中int - >字符串,您使用字符串长度作为键。完成。

这不是群集。从技术上讲,它只是一个简单的GROUP BY操作。在SQL中,您可以GROUP BY LENGTH(col)

k-means在这里完全是错误的选择。