k-means - k表示交叉验证

我获得了一份美国县的名单，其中包含贫困，人口等数据，并使用k均值算法进行聚类。我按如下方式交叉验证了聚类：我将县分为训练集和保持集。我在聚类期间将贫困特征排除在外，然后对于抵抗组中的每个县，我找到了最近的聚类，然后我从最近的聚类的平均贫困中减去了该县的贫困。最后，我将上面的差异进行了平方，对于保留集中的每个县进行求和，然后除以保留集中的县数。然后我做了同样的事情，但这次贫困特征参与了聚类。我观察到错误明显低于以前，但我读到这是某种'作弊'。什么是直观的方式来理解为什么在集群中包含贫困是错误的？

您正在尝试使用贫困属性来确定贫困属性。

另一个例子，假设你有一套汽车。你知道汽车的某些功能增强了它具有某种颜色的可能性。你不知道汽车的颜色（除了训练集），但你知道很多其他属性，比如模型和年份。您使用训练集构建聚类模型，然后将其应用于主集。现在，集群应包含相同颜色的汽车。

您事先并不知道颜色，但您（希望）能够使用其他属性来根据颜色对汽车进行聚类。

如果使用color属性构建聚类模型，则无法实现。您可以使用该颜色来聚类相似颜色的汽车。令人印象深刻。你会获得什么知识？

k表示交叉验证

1 个答案: