我开发了一种新的文档相似性度量(一种计算两个文档之间的相似度/距离的方法)。我会知道这个措施有多好?
群集是基于距离/相似性度量的应用程序。因此,我决定在不同的数据聚类算法中评估所提出的度量的有效性。
我读到了different clustering algorithms in R。假设我有一个文档集 D ,其中包含 n 文档,这些文档以 k 群集的形式组织。我想评估我的相似度/距离度量在各种聚类算法(分区,分层和基于主题)中的应用。问题是所有示例和教程都从“数据”矩阵开始,但我有距离/相似性矩阵。
请你在R中给我一些提示吗?
答案 0 :(得分:1)
hclust()
需要一个dist
对象的相异性结构。如果您从数字矩阵m
开始,则可以创建dist
对象,如下所示:
d <- as.dist(m)
然后,您可以使用hclust()
执行层次聚类,如下所示:
hclust(d)