在Python中使用机器学习算法的特征选择器时,我使用以下代码生成了一个数据结构:
# Perform set partitioning on the results
groups = []
for t in results:
(jthName,kthName) = t
jthGroup = -1
kthGroup = -1
# Just a simple list of hashes with online merging
for idx,group in enumerate(groups):
if jthName in group:
jthGroup = idx
if kthName in group:
kthGroup = idx
if jthGroup == kthGroup:
if jthGroup == -1: # Implicit: "and kthGroup == -1"
groups.append(set((jthName,kthName)))
elif jthGroup != kthGroup:
if kthGroup == -1:
# Merge kthName into jthGroup
groups[jthGroup].add(kthName)
elif jthGroup == -1:
# Merge jthName into kthGroup (redundant if naturally-ordered)
groups[kthGroup].add(jthName)
else:
# Merge jthGroup and kthGroup, since we have a connecting pair
merged = set()
merged.update(groups[jthGroup])
merged.update(groups[kthGroup])
groups.remove(groups[jthGroup])
groups.remove(groups[kthGroup])
groups.append(merged)
我的输入results
是元组{2}的列表,groups
是一个列表。请注意,我的代码在这里不一定有效;它仅用于说明目的。
我的数据结构groups
具有以下属性:
对于每个(jthName,kthName)
:
(jthName,kthName)
的元素,请在我们的集合列表中创建set((jthName,kthName))
。(jthName,kthName)
中的一个,则将未展开的元素合并到该集合中。(jthName,kthName)
的每个元素都在另一个集合中找到,请将两个引用的集合合并为一个集合。循环不变量:jthName
和kthName
不能包含在多个集合中。
我对这种数据结构的理由是创建一组未知连通节点图的平面分解,其中每个唯一元素名称是一个节点,每个唯一对是一个边。我的理由是我的图表不完整,我要求此视图选择仅每个图表的已知成员,以提供一个算法regressively determine图形连接和边缘的方向性(也就是说,由数据表示的完整的DAGs集合。但是,我离题了。
变量groups
表示的数据结构是否有友好名称?如果是,或者如果没有,是否有更多时间或空间效率的方法来执行此分解?
答案 0 :(得分:7)
我认为你所寻找的东西叫做Disjoint-set data structure。
它经常在做Kruskal时使用,因为如果你用路径压缩实现不相交的数据结构,它允许你在分摊的nlog * n(实际上小于那个)时间内进行n次查找。
实现起来非常合理,我认为wiki页面伪代码非常适合python。如果您需要更多帮助,this SO question might help。
如果您使用了不相交的数据结构,那么您的代码将如下所示:
for t in results:
(jName, kName) = t
union(jName, kName)