我正在使用K-Means算法进行文本聚类,并使用K-Means ++初始种子。
我尝试通过更改停用词字典和增加max_no_of_random_iterations等一些更改来提高算法的效率。
我得到了不同的结果。我如何比较它们?我不能在这里应用混淆矩阵的想法。输出不是某些文档获取某些值或标记的形式。文档转到一组。它只是相对“良好的聚类”或重要的集合。
那么是否有一些标记方法来标记此输出集的性能?
如果混淆矩阵是答案,请解释如何做到这一点?
感谢。
答案 0 :(得分:0)
您可以提前决定如何衡量群集的质量,例如计算多少空数或某些统计数据,例如在平方和中
这paper说
“......集群有效性的三种独特方法是可能的。 第一种方法依赖于外部标准来调查 在集群数据集中存在一些预定义的结构。该 第二种方法使用内部标准和群集 结果通过描述数据集的数量来评估,例如 接近矩阵等。基于内部和外部的方法 标准利用统计检验,其缺点是 计算成本高。第三种方法使用相对 标准并依赖于找到满足的最佳聚类方案 某些假设并要求预定义的输入参数值“
由于群集是无人监督,因此您需要一些困难的事情。我建议研究人们如何使用遗传算法进行聚类,并了解他们使用的健身标准。