R中聚类分析中的过滤变量

时间:2018-08-16 15:53:30

标签: r cluster-analysis pca financial

我正在尝试对噪音很大的金融数据集进行聚类分析(PAM)。

有超过100个变量,其中许多是高度共线的。

在给定大量噪声和共线性的情况下,在整个列数组上运行聚类算法几乎是毫无意义的,而且我不希望使用PCA,因为我最终将获得每个聚类的组件而不是现有变量的范围,我打算进一步分析。

在评估一组由10个变量定义的聚类趋势(霍普金统计量)时,我可以确定聚类是否可行。我的问题是,是否有一种方法可以使hopkin的统计信息遍历每个可能的说10个变量的组,以便我可以在具有最佳hopkin的统计信息的组上运行聚类算法,等等。

我可能对此不太了解,但任何建议都值得赞赏。

2 个答案:

答案 0 :(得分:0)

有一个包“ clustertend”,并且这里有Hopkin的统计信息作为函数 https://cran.r-project.org/web/packages/clustertend/clustertend.pdf

答案 1 :(得分:0)

使用子空间聚类方法。

这些算法试图同时识别聚类和同时区分该聚类的变量。

但是,如果减少变量的数量,即使这些算法也将受益。首先尝试识别高度相关的变量(重复项)和无用的变量(噪声),然后将其删除。

不要依赖霍普金斯统计量。这是对均匀性的简单测试,但对多峰性却不是。即,单个高斯将具有很高的“聚类趋势”,但这可能对您没有用。因此,统计信息可能无济于事。