sklearn AgglomerativeClustering

时间:2017-12-19 12:53:50

标签: machine-learning scikit-learn cluster-analysis hierarchical-clustering

我正在尝试实施Chakrabarti算法,以便随着时间的推移进行平滑聚类。对于凝聚聚类,要合并的下一个聚类的选择取决于两个组成部分:

  • 当前时间戳子集群之间的相似性
  • 与上一个时间戳相关的历史成本。

后者有几种变化。例如,一个包括合并距离(不仅如此):如果我们合并两个子集合 S1 S2 ,那么平均距离(就边缘而言)是多少所有叶子都在 S1 S2

我考虑为这些算法修改sklearn AgglomerativeClustering,我有几个问题:

  1. 库代码中的哪些行实现了在当前步骤中合并的集群选择?
  2. 是否可以在每个合并步骤中提取子集群的叶子和根之间的距离?我注意到有一个属性'孩子_'在AgglomerativeClustering中,可用于创建结果树并查找任何节点之间的距离。如何为每个合并步骤提取这样的信息?

0 个答案:

没有答案