使用决策树比较scikit学习聚类

时间:2015-04-09 19:28:25

标签: python machine-learning scikit-learn cluster-analysis

我正在为一个类做一个项目,我从LIBSVM中获取一些数据并通过2种不同的聚类算法运行它。我的kmeans产生了8个簇,而我的凝聚力则将它们分成3个簇。

现在,我试图判断由我的kmeans生成的群集标签是否可用于预测由我的凝聚群集生成的群集标签,例如将集群#6中的所有实例映射到agg集群中的集群#1。

我的教授建议使用决策树分类器,但我不太清楚如何做到这一点。我知道我会将agg聚类标签作为类标签,然后将我的数据输入其中,看看它是如何分类的。这是我的问题所在,我有几个:

1)scikit学习决策树分类器的输出是什么?它是每个实例可能归类为的概率列表吗?或者它是否明确地对每个实例进行分类?

2)输入数据后,每个实例都被归类为Agg生成的3个集群中的一个,我如何进入并找出它属于kmeans的集群?

3)有更好的方法吗?我们需要做的就是“以定量的方式比较不同方法产生的聚类”,因此我们不一定需要使用决策树分类器,但我不确定另一种好的方法是什么。我考虑了兰特和调整后的兰特指数,但那些似乎不是我正在寻找的

非常感谢任何帮助!提前谢谢!

1 个答案:

答案 0 :(得分:2)

首先让我回答3)。 是! sklearn.metrics.cluster See the documentation。这是用"真实参考"的观点写的。但这并不是必要的,调整兰德指数和标准化互信息非常适合比较两个类似的两个类似,并且每个都会产生有意义的数字。

1)要么。 predict给出了类,predict_proba给出了概率。

2)我不明白这个问题。