我正在为一个类做一个项目,我从LIBSVM中获取一些数据并通过2种不同的聚类算法运行它。我的kmeans产生了8个簇,而我的凝聚力则将它们分成3个簇。
现在,我试图判断由我的kmeans生成的群集标签是否可用于预测由我的凝聚群集生成的群集标签,例如将集群#6中的所有实例映射到agg集群中的集群#1。
我的教授建议使用决策树分类器,但我不太清楚如何做到这一点。我知道我会将agg聚类标签作为类标签,然后将我的数据输入其中,看看它是如何分类的。这是我的问题所在,我有几个:
1)scikit学习决策树分类器的输出是什么?它是每个实例可能归类为的概率列表吗?或者它是否明确地对每个实例进行分类?
2)输入数据后,每个实例都被归类为Agg生成的3个集群中的一个,我如何进入并找出它属于kmeans的集群?
3)有更好的方法吗?我们需要做的就是“以定量的方式比较不同方法产生的聚类”,因此我们不一定需要使用决策树分类器,但我不确定另一种好的方法是什么。我考虑了兰特和调整后的兰特指数,但那些似乎不是我正在寻找的
非常感谢任何帮助!提前谢谢!
答案 0 :(得分:2)
首先让我回答3)。 是! sklearn.metrics.cluster See the documentation。这是用"真实参考"的观点写的。但这并不是必要的,调整兰德指数和标准化互信息非常适合比较两个类似的两个类似,并且每个都会产生有意义的数字。
1)要么。 predict
给出了类,predict_proba
给出了概率。
2)我不明白这个问题。