我不太了解Carrot2中标签和短语之间的区别,它们似乎没有明确区分我http://doc.carrot2.org/。我尝试将它们打印出来,但它们显然是相同的(使用kmeansclustering)。有人可以为我清楚这一点吗?
我也想知道得分。在群集之后,我的群集没有附加任何分数,我应该自己计算这些吗?
关于相似性,是否可以使用Carrot2来确定查询与群集的相似程度?
答案 0 :(得分:0)
标签,短语和分数的确切含义因算法而异。通常,标签可以由一个或多个短语组成。一些算法总是产生一个短语标签,另一些算法可能输出由多个短语组成的标签。对于k-means聚类,您可以使用labelCount属性设置每个标签的单词数。
群集得分也是算法特定的,是群集算法对群集质量的信念。目前K-means的实施确实没有产生任何分数。如果你想计算common cluster quality metrics中的一个,最简单的方法可能是直接扩展算法的代码,因为它可以让你访问你需要计算质心的vector space model和距离。
在计算查询和集群之间的相似性时,还有很多可能性。对于k-means聚类,您可以例如假设向量空间模型并计算对应于查询的向量与聚类的质心之间的距离。