如何对字符串进行聚类?

时间:2017-04-06 21:30:45

标签: cluster-analysis k-means data-analysis hierarchical-clustering

我有几个水桶。每个桶包含许多标签(字符串)。如何根据相似性或重叠将桶组合在一起?

E.g。

Bucket A:'鸵鸟','麻雀','蜂鸟','斑马','蓝杰伊'

桶B:'香蕉','西瓜','葡萄','胡萝卜'

斗C:'芹菜','生菜','菠菜','香蕉','胡萝卜'

斗D:'麻雀','狗','猫','狮子','大象','马'

在这个非常小的例子中,B + C将构成一个集群(因为香蕉和胡萝卜),而A和D各自都在它们自己的集群中,因为它们不足以聚集它们。

1 个答案:

答案 0 :(得分:1)

您可以使用基于集合的距离,例如Jaccard和层次聚类。