从Scipy树状图生成的每个群集中恢复元素

时间:2018-07-03 18:59:21

标签: python-3.x matplotlib scipy dendrogram

我正在构建树状图并将其截断以仅显示最大的6个簇。同样,通过简单的叶子标签功能完成标签操作:

def llf(id):
   return str(id)

tree = sch.dendrogram(Z, truncate_mode='lastp', 
                      leaf_label_func=llf, p=6, show_contracted=False,
                      show_leaf_counts=False, leaf_rotation=90, 
                      no_labels = False, orientation='right')        

我的输出如下:

enter image description here

我的目标是用该簇内成员的最小值替换叶子的非描述性标签。例如,如果最上面的叶子是包含10到1000范围内的簇,那么我想用10替换“ 2468”。替换图中的滴答滴答的实际逻辑很容易实现:

fig, ax = plt.subplots()
mislabels = ["foo" for i in range(7)]
ax.set_xticklabels(mislabels, fontsize=10, rotation=45)

关于如何从领导者中提取价值的任何想法?

到目前为止,我已经能够使用fcluster将每个单例叶子映射到其集群。但是,这仅将我最初的1230点映射到群集。我需要将标记为“ 2468”的点映射到其群集,但不确定如何执行此操作。

谢谢!

1 个答案:

答案 0 :(得分:0)

我找到了方法

fig, ax = plt.subplots(2,2,figsize=(10,5))
ax = ax.ravel()
# [idx_plot[k]:, idx_plot[k]:]
for k, val in enumerate(linkages['ward']):    
    cluster_local = cluster_labels[val]['ward'][6]    
    leaders = sch.leaders(linkages['ward'][val], cluster_local)
    dates_labels = dict()
    for v, i in enumerate(leaders[1]):
        date_idx = np.where(cluster_local == i)
        dates_labels[leaders[0][v]] = (fechas[val][idx_plot[val]:][date_idx[0][0]].strftime('%y/%m'), fechas[val][idx_plot[val]:][date_idx[0][-1]].strftime('%y/%m'))
    mislabels = [dates_labels[leaders[0][i]][0] + ', ' + dates_labels[leaders[0][i]][1] for i in range(6)]
    yuca = sch.dendrogram(linkages['ward'][val], truncate_mode='lastp', ax=ax[k], leaf_label_func=llf, p=6, show_contracted=False, show_leaf_counts=False,
                          leaf_rotation=0, no_labels=False, orientation = 'right' )
#     ax[k].set_xticklabels(mislabels, fontsize=10, rotation=90)
    ax[k].set_yticklabels(mislabels, fontsize=10, rotation=0)
    ax[k].set_title(val)
plt.tight_layout()
plt.show()

enter image description here