利用Rapidminer计算k-means的聚类有效性

时间:2016-05-01 19:23:04

标签: cluster-analysis k-means rapidminer

好吧,我一直在研究用于聚类的不同算法,如k-means,k-mediods等,我试图在这里运行算法并分析它们在叶子数据集上的表现: http://archive.ics.uci.edu/ml/datasets/Leaf

通过首先读取csv文件,过滤掉不需要的属性并在其上应用k-means,我能够通过k-means聚类数据集。我在这里面临的问题是,我希望计算通过k-means开发的模型的熵,精度,召回和f-度量等度量。是否有一个允许我这样做的操作员,以便我可以定量比较快速采矿者可用的不同聚类算法?

P.S我知道像性能(分类)这样的性能操作符,它允许我计算模型的精度和召回率,但我不知道任何允许我计算熵的算法。

非常感谢帮助。

1 个答案:

答案 0 :(得分:0)

简短的回答是使用R.这是关于这个主题的书籍章节link。有一个修订版即将推出,适用于最新版本的RapidMiner。