应用错误收集

如何判断文本聚类算法的性能？

时间：2013-07-25 08:28:05

标签： cluster-computing cluster-analysis k-means document-classification

我正在使用K-Means算法进行文本聚类，并使用K-Means ++初始种子。

我尝试通过更改停用词字典和增加max_no_of_random_iterations等一些更改来提高算法的效率。

我得到了不同的结果。我如何比较它们？我不能在这里应用混淆矩阵的想法。输出不是某些文档获取某些值或标记的形式。文档转到一组。它只是相对“良好的聚类”或重要的集合。

那么是否有一些标记方法来标记此输出集的性能？

如果混淆矩阵是答案，请解释如何做到这一点？

感谢。

1 个答案:

答案 0 :(得分：0)

您可以提前决定如何衡量群集的质量，例如计算多少空数或某些统计数据，例如在平方和中

这paper说

“......集群有效性的三种独特方法是可能的。第一种方法依赖于外部标准来调查在集群数据集中存在一些预定义的结构。该第二种方法使用内部标准和群集结果通过描述数据集的数量来评估，例如接近矩阵等。基于内部和外部的方法标准利用统计检验，其缺点是计算成本高。第三种方法使用相对标准并依赖于找到满足的最佳聚类方案某些假设并要求预定义的输入参数值“

由于群集是无人监督，因此您需要一些困难的事情。我建议研究人们如何使用遗传算法进行聚类，并了解他们使用的健身标准。