确定用于分类的“正确”重新编码模式

时间:2015-02-02 15:41:53

标签: r

我试图比较原始数据的聚类结果。在原始数据中,每个人都被分配到一个“班级”,其中包含以下3类数据的频率。

orig.class <- c(2672, 2672, 2672)

聚类后,根据结果将个人分配到一个班级。但是,生成的类标签是任意的。因此,我为每个3类组合(即6)生成了不同的排列。分类结果的频率如下所示:

permu1 <- c(2544, 2664, 2808)
permu2 <- c(2544, 2808, 2664)
permu3 <- c(2664, 2544, 2808)
permu4 <- c(2808, 2544, 2664)
permu5 <- c(2664, 2808, 2544)
permu6 <- c(2808, 2664, 2544)

通过查看每个频率表,例如,

table(orig.class, permu1)

我可以弄清楚应该使用哪种排列(permu4)进行重新编码,因为我的最终目标是比较分类结果的准确程度。但我无法弄清楚如何在R中自动执行此操作。

任何建议将不胜感激!感谢。

1 个答案:

答案 0 :(得分:0)

我认为计算矩阵的轨迹是有效的。查看频率表,

table(orig.class, permu1)

我想要具有最高匹配频率的置换。为此,我可以计算矩阵对角线的总和。