我有几个水桶。每个桶包含许多标签(字符串)。如何根据相似性或重叠将桶组合在一起?
E.g。
Bucket A:'鸵鸟','麻雀','蜂鸟','斑马','蓝杰伊'
桶B:'香蕉','西瓜','葡萄','胡萝卜'
斗C:'芹菜','生菜','菠菜','香蕉','胡萝卜'
斗D:'麻雀','狗','猫','狮子','大象','马'
在这个非常小的例子中,B + C将构成一个集群(因为香蕉和胡萝卜),而A和D各自都在它们自己的集群中,因为它们不足以聚集它们。
答案 0 :(得分:1)
您可以使用基于集合的距离,例如Jaccard和层次聚类。