使用预定义的距离/相似度矩阵进行R数据聚类

时间:2014-02-19 14:58:22

标签: r cluster-analysis similarity k-means hierarchical-clustering

我开发了一种新的文档相似性度量(一种计算两个文档之间的相似度/距离的方法)。我会知道这个措施有多好?

群集是基于距离/相似性度量的应用程序。因此,我决定在不同的数据聚类算法中评估所提出的度量的有效性。

我读到了different clustering algorithms in R。假设我有一个文档集 D ,其中包含 n 文档,这些文档以 k 群集的形式组织。我想评估我的相似度/距离度量在各种聚类算法(分区,分层和基于主题)中的应用。问题是所有示例和教程都从“数据”矩阵开始,但我有距离/相似性矩阵。

请你在R中给我一些提示吗?

1 个答案:

答案 0 :(得分:1)

hclust()需要一个dist对象的相异性结构。如果您从数字矩阵m开始,则可以创建dist对象,如下所示:

d <- as.dist(m)

然后,您可以使用hclust()执行层次聚类,如下所示:

hclust(d)