我有一个字符串列表,如{abb,abgt,acctg,tgbs,abs}等。字符串数由用户定义。我需要将相似长度的字符串聚集在一起。哪种聚类算法适合这种情况,为什么?到目前为止,我知道K-means需要事先了解群集的数量,我无法分辨,因为字符串数量未预定义。
答案 0 :(得分:0)
迭代你的字符串。将它们存储在地图中int - >字符串,您使用字符串长度作为键。完成。
这不是群集。从技术上讲,它只是一个简单的GROUP BY
操作。在SQL中,您可以GROUP BY LENGTH(col)
。
k-means在这里完全是错误的选择。