我有一个已聚类的数据集合。每个群集包含一个行和列的表,每个群集包含一个质心,表示为数据行。对于每列数据,我都希望计算与质心相比所选内容的准确性。现在也许这很明显。那是我的第一个猜测,是将等于列中质心的值的出现次数除以行数。但是我想知道此计算是否根据列可能具有的不同值的数量而改变。
例如,我在一列中有以下数据,我的质心值为M
M,F,M,M,F。
此列的精度为.60
但是具有3个类别类型的列怎么办
M,F,U,M,M,U,F,F,M,M:如果我的质心值为M,则有5 Ms但有10行,因此精度为0.50。鉴于M为多数,这似乎不是一种获取列精度的好方法。还是这是获得色谱柱精度的唯一方法?