Question

我开发了一种新的文档相似性度量（一种计算两个文档之间的相似度/距离的方法）。我会知道这个措施有多好？

群集是基于距离/相似性度量的应用程序。因此，我决定在不同的数据聚类算法中评估所提出的度量的有效性。

我读到了different clustering algorithms in R。假设我有一个文档集 D ，其中包含 n 文档，这些文档以 k 群集的形式组织。我想评估我的相似度/距离度量在各种聚类算法（分区，分层和基于主题）中的应用。问题是所有示例和教程都从“数据”矩阵开始，但我有距离/相似性矩阵。

请你在R中给我一些提示吗？

Answer 1

hclust()需要一个dist对象的相异性结构。如果您从数字矩阵m开始，则可以创建dist对象，如下所示：

d <- as.dist(m)

然后，您可以使用hclust()执行层次聚类，如下所示：

hclust(d)

使用预定义的距离/相似度矩阵进行R数据聚类

1 个答案: