应用错误收集

R中相异矩阵的聚类

时间：2017-09-06 22:21:44

标签： r cluster-analysis k-means

我目前正试图了解未经验证的机器学习，即群集，并且有点困惑。

首先，这就是我需要群集算法的原因。我计算了一个相异矩阵 N x N，其中我比较了二元树的（dis）相似性。这意味着对于条目N _i，i，该值为零（表示对角线为零），对于条目N _i，j，该值为≥0。这是一个矩阵，包含100 x 100个元素，即我有100个二进制树，我相互比较。这个矩阵在R之外计算。我的矩阵中的距离是树编辑距离并且满足三角不等式。

我实际上允许使用哪种群集算法只使用这些信息？我非常确定我可以使用层次聚类，但是如何使用这个矩阵在R中执行k-means oder PAM聚类？

1 个答案:

答案 0 :(得分：2)

你不能使用k-means。因为它需要计算均值，以及与均值的距离。那不会在树上工作。

HAC，PAM和DBSCAN都很好。 DBSCAN是这三者中最具扩展性的，但如果你有足够的数据也会更好 - 你的样本可能太小了。所以我使用HAC。