Question

鉴于sklearn.AgglomerativeClustering创建的聚集群集的某些特定叶节点，我试图确定从根节点（所有数据点）到给定叶节点以及每个中间步骤（内部节点的路径）的路径树）相应数据点的列表，请参见下面的示例。

在此示例中，我考虑了五个数据点并将重点放在点3上，这样我就希望提取从根到叶3的每个步骤中考虑的实例，因此所需的结果将是[[1,2,3,4,5]，[1,3,4,5]，[3,4]，[3]]。我该如何使用sklearn来实现这一目标（或者如果使用其他库则无法实现这一目标）？

Answer 1

下面的代码首先找到焦点的所有祖先（使用下面的find_ancestor函数），然后查找并添加每个祖先的所有后代（find_descendent）。

首次加载和训练数据：

iris = load_iris()
N = 10
x = iris.data[:N]
model = AgglomerativeClustering(compute_full_tree=True).fit(x)

这是主要代码：

ans = []
for a in find_ancestor(3)[::-1]:
    ans.append(find_descendent(a))
print(ans)

在我的情况下，哪个输出

[[1, 9, 8, 6, 2, 3, 5, 7, 0, 4],
 [1, 9, 8, 6, 2, 3],
 [8, 6, 2, 3],
 [6, 2, 3],
 [2, 3],
 [3]]

要了解find_ancestor的代码，请记住，索引为i的非叶节点的2个孩子在model.children_[i]上

def find_ancestor(target):
    for ind,pair in enumerate(model.children_):
        if target in pair:
            return [target]+find_ancestor(N+ind)
    return [ind+N]

递归find_descendent使用mem将其输出保存在内存中，这样就不会不必要地对其进行重新计算。

mem = {}
def find_descendent(node):
    global mem
    if node in mem: return mem[node]
    if node<N: return [node]
    pair = model.children_[node-N]
    mem[node] = find_descendent(pair[0])+find_descendent(pair[1])
    return mem[node]

在sklearn的聚集聚类中提取从根到叶的路径

1 个答案: