我应该使用什么样的聚类来将大学聚类成类似的比较组?

时间:2014-03-20 07:08:26

标签: r cluster-analysis hierarchical-clustering

我不熟悉群集,也不知道如何选择要应用的群集方法。

我的数据是1303所大学和35个变量,如申请/接受申请,学生综合SAT成绩,毕业率等等

此处有description of my datadataset

当我想将大学分成类似的比较组时,比如毕业率,哪种聚类会更好?

我在r中尝试了完整的连接方法--- hclust但是底部的情节只是一团糟......

有什么建议我可以用我的数据集在r中做更好的聚类吗?谢谢!

1 个答案:

答案 0 :(得分:1)

选择良好的距离/相异度指标会使hclust的结果产生显着差异。我猜测默认情况下它会选择一些欧几里德距离度量,这意味着每个变量在其特征空间中的权重相等。

更好的想法是自己想出一个不相似的功能:给两个大学的功能会在它们之间产生不同。您可以将您对数据中指标的理解与任何其他先验信息相结合,然后自行计算相似度矩阵dhdist的参数)。

如果你想专注于毕业率,那么你的相异功能在最极端的情况下只会产生这种差异。但是,如果你认为毕业率和其他一些因素都很重要,那么它会变得更有趣,然后制作一个兼顾两者的功能,但会给毕业率带来更重的权重。

然后,层次聚类结果应该更好地从数据中提取有趣的模式。