r

时间:2017-06-07 15:02:34

标签: r datatable cluster-analysis hclust

我有一个非常大的数据表(大约有100.000个观察结果),我想用它来进行聚类。由于某些数据是绝对的,我尝试使用" gower distance"然后用"病房" hclust()方法。 数据本身是非常不同的,这就是为什么我喜欢排序" pre-cluster"数据然后进行实际的聚类分析。你们有没有做过这件事,能指出我正确的方向吗?我此刻不知所措:( 通过上述方法,我不会真正获得有用的集群。 谢谢大家,我非常感谢我能得到的每一个提示。

编辑:我认为我没有真正解释我的问题,所以这是另一次尝试:让我们说,我有一个包含汽车品牌及其部分功能的数据集。在通过功能对它们进行聚类之前,我想按品牌对它们进行预聚类。所有宝马,例如在同一个集群中等等......只有在那之后我才想按功能进行集群,所以我应该得到一个带有快车等的集群。 有谁知道,怎么在R? 这并没有描述我的数据集,但也许我现在的问题更清晰了。

1 个答案:

答案 0 :(得分:0)

您应该先从示例开始。

一旦您在样本上获得了良好的结果,请尝试在不同的样本上重现它。一旦结果稳定,您可以尝试将算法扩展到整个数据集(可能先尝试加倍),或者您可以训练分类器并预测剩余数据的簇。对于大多数聚类算法,1个最近邻分类器将非常好。