我想对大型社交网络数据集使用一些聚类方法。问题是如何评估聚类方法。是的,我可以使用一些外部,内部和相对的集群验证方法。我使用规范化互信息(NMI)作为基于合成数据的集群验证的外部验证方法。我通过生成5个具有相同数量的节点的集群和每个集群内部的一些强连接链路以及集群之间的弱链接来生成一些合成数据集来检查聚类方法,然后我在该合成数据集上分析了基于谱聚类和模块化的社区检测方法。我使用具有最佳NMI的聚类作为我的真实世界数据集,并检查我的算法的错误(成本函数),结果很好。我的成本函数测试方法是否良好?或者我还应该再次验证我的真实单词群集?
感谢。
答案 0 :(得分:1)
尝试多项措施。
有十几种集群验证措施,很难预测哪一种最适合问题。他们之间的差异还没有真正理解,所以如果你咨询不止一个,那就最好了。
另请注意,如果您不使用标准化度量,则基线可能非常高。因此,这些措施对于说“结果A与结果B更类似于结果C”非常有用,但不应被视为质量的绝对衡量标准。它们是相似性的相对衡量标准。