我目前正试图了解未经验证的机器学习,即群集,并且有点困惑。
首先,这就是我需要群集算法的原因。我计算了一个相异矩阵 N x N,其中我比较了二元树的(dis)相似性。这意味着对于条目N i,i ,该值为零(表示对角线为零),对于条目N i,j ,该值为≥0。这是一个矩阵,包含100 x 100个元素,即我有100个二进制树,我相互比较。这个矩阵在R之外计算。我的矩阵中的距离是树编辑距离并且满足三角不等式。
我实际上允许使用哪种群集算法只使用这些信息?我非常确定我可以使用层次聚类,但是如何使用这个矩阵在R中执行k-means oder PAM聚类?
答案 0 :(得分:2)
你不能使用k-means。因为它需要计算均值,以及与均值的距离。那不会在树上工作。
HAC,PAM和DBSCAN都很好。 DBSCAN是这三者中最具扩展性的,但如果你有足够的数据也会更好 - 你的样本可能太小了。所以我使用HAC。