确定不同数据集的聚类数量

时间:2019-02-04 08:56:25

标签: cluster-analysis

我对不同用户的媒体使用情况进行了聚类分析,以便找到使用特定媒体集的不同组(例如,组1使用媒体A,B和C,组2使用媒体B,C和D) 。然后,我将数据集划分为不同的组,因为用户属于一个特定的组(因此,原始数据集和新数据集具有不同的大小)。在这些组中,我希望再次聚类使用哪些不同的媒体集。 如何确定聚类数以确保结果可比?

提前谢谢!

1 个答案:

答案 0 :(得分:0)

不要依赖集群来保持稳定。

这是一个假设生成工具。

您进行了聚类,现在您有了一个假设,即存在媒体使用分组ABCD。您应该首先评估该假设是否足够。现在,下一步是将标签分配给数据的子集。首先,您应该能够简单地从以前的标签中将其子集化。但是,如果这确实是不同的数据,则可以标记新数据,例如使用最相似的记录(最近邻居分类)。但这就是分类,因为您的班级是固定的。