k表示交叉验证

时间:2012-12-09 10:44:04

标签: k-means cross-validation

我获得了一份美国县的名单,其中包含贫困,人口等数据,并使用k均值算法进行聚类。我按如下方式交叉验证了聚类:我将县分为训练集和保持集。我在聚类期间将贫困特征排除在外,然后对于抵抗组中的每个县,我找到了最近的聚类,然后我从最近的聚类的平均贫困中减去了该县的贫困。最后,我将上面的差异进行了平方,对于保留集中的每个县进行求和,然后除以保留集中的县数。然后我做了同样的事情,但这次贫困特征参与了聚类。我观察到错误明显低于以前,但我读到这是某种'作弊'。什么是直观的方式来理解为什么在集群中包含贫困是错误的?

1 个答案:

答案 0 :(得分:1)

您正在尝试使用贫困属性来确定贫困属性。

另一个例子,假设你有一套汽车。你知道汽车的某些功能增强了它具有某种颜色的可能性。你不知道汽车的颜色(除了训练集),但你知道很多其他属性,比如模型和年份。您使用训练集构建聚类模型,然后将其应用于主集。现在,集群应包含相同颜色的汽车。

您事先并不知道颜色,但您(希望)能够使用其他属性来根据颜色对汽车进行聚类。

如果使用color属性构建聚类模型,则无法实现。您可以使用该颜色来聚类相似颜色的汽车。令人印象深刻。你会获得什么知识?