合并甚至有一个共同元素的集合

时间:2012-08-21 21:48:02

标签: python algorithm set

  

可能重复:
  Python: simple list merging based on intersections

我正在尝试对对象进行分类。每个对象由称为id的唯一标识符属性标识。所以我的分类逻辑是这样的。首先,我准备一个对象列表,然后分类函数一次取2个对象,并返回包含frozenset的{​​{1}}。因此,如果idobject1属于同一类别,则会返回object5。现在我继续将这些frozensets添加到一个集合中,所以最后我有一个像这样的集合

frozenset(id1,id5)

现在因为matched_set=( frozenset(id1,id2), frozenset(id9,id3), frozenset(id9,id2), frozenset(id24,id22), frozenset(id1,id23), frozenset(id25,id24), frozenset(id30,id24) ) id1的对象属于同一类别,id2id9的对象属于同一类别,id3的对象属于同一类别和id9属于同一类别,id2的对象应属于同一类别。所以我应该有这样一套id1,id2,id3,id9 有人可以提供算法吗? 感谢

1 个答案:

答案 0 :(得分:5)

听起来你正在寻找disjoint-set datastructure

根据你的id,你的类别将它们分成不相交的子集。不相交集数据结构通过选择代表ID来表示每个类别,代表ID将由其任何成员的查询返回。 (孤立的id形成一个类别,并返回自己)

对不相交集数据结构的更新组合了任何两个id的类别,以便将来的查询为两个子集的成员返回相同的代表。 (如果两个id已经是同一类别的成员,则更新在功能上是无操作的)

通常的方法是将每个类别表示为反向树:每个id都有一个parent链接,但没有子链接。 “代表元素”是树的根,通过遵循父链接很容易查询。更新需要找到两个id的树的根,并且(如果它们不同)通过使一个根成为另一个的父来合并树。

通过添加一些简单的优化(查询“折叠”查询路径以直接指向根,并且更新总是选择最深树的根作为合并父级),此算法变得非常有效,在“几乎是O(1)“摊还的时间。

如果要在线访问每个类别中完整的id列表,则应该维护一个附加到每个类别根目录的累积列表,并在每个合并中连接它们。一般来说,以这种方式维护任何数量的有关您的类别的统计数据都很方便。