如何在群集上应用群集?

时间:2019-06-06 09:05:08

标签: r cluster-computing cluster-analysis igraph

我使用R library(igraph)在数据集中建立了聚类。我有几个相连的组件,但是第一个非常庞大,这是巨大的组件。我想在这个巨大的组件上重新应用集群,以重建集群。这样做有意义吗?

2 个答案:

答案 0 :(得分:0)

就其本质而言,聚类在人类决定赋予它的意义之外没有任何意义。如果希望将群集分为更多的群集,则需要调整所用模型的超参数。

例如,K-均值聚类允许您先选择想要的聚类数量,而基于密度的聚类方法通常可以定义重要的密度。您正在使用的库看起来不太适合群集,而不适用于图计算。

我对R不太熟悉,但是您可能希望尝试使用clusterR软件包,因为它似乎有许多常见的聚类算法。我本人倾向于使用Python,尤其是名为scikit-learn的软件包。

希望这会有所帮助!

答案 1 :(得分:0)

我在评论中的意思是我假设您有一个样本(行)和特征(列)的数据集。

例如,如果您对整个数据集进行K-means聚类并得到您说的结果,那么我将创建一个新的数据集,在其中仅获取属于大聚类的样本。这样,您可以将任何聚类技术单独应用于此新数据集,并且应该拆分得更多。

这是因为在您的原始数据集中,由于存在较大的相对差异,因此不认为此大集群内的差异很重要(它们之间的差异较小)。当您消除较大的差异时,可以检索较小的差异。