如何判断文本聚类算法的性能?

时间:2013-07-25 08:28:05

标签: cluster-computing cluster-analysis k-means document-classification

我正在使用K-Means算法进行文本聚类,并使用K-Means ++初始种子。

我尝试通过更改停用词字典和增加max_no_of_random_iterations等一些更改来提高算法的效率。

我得到了不同的结果。我如何比较它们?我不能在这里应用混淆矩阵的想法。输出不是某些文档获取某些值或标记的形式。文档转到一组。它只是相对“良好的聚类”或重要的集合。

那么是否有一些标记方法来标记此输出集的性能?

如果混淆矩阵是答案,请解释如何做到这一点?

感谢。

1 个答案:

答案 0 :(得分:0)

您可以提前决定如何衡量群集的质量,例如计算多少空数或某些统计数据,例如在平方和

paper

  

“......集群有效性的三种独特方法是可能的。   第一种方法依赖于外部标准来调查   在集群数据集中存在一些预定义的结构。该   第二种方法使用内部标准和群集   结果通过描述数据集的数量来评估,例如   接近矩阵等。基于内部和外部的方法   标准利用统计检验,其缺点是   计算成本高。第三种方法使用相对   标准并依赖于找到满足的最佳聚类方案   某些假设并要求预定义的输入参数值“

由于群集是无人监督,因此您需要一些困难的事情。我建议研究人们如何使用遗传算法进行聚类,并了解他们使用的健身标准。