是否有任何内部有效性指数/方法来评估我的算法质量,这些指标/方法主要不依赖于邻近度量(例如,距离矩阵)? 所有常规度量(例如:轮廓,Dunn索引,N切割,DB索引等)取决于您在数据和最终分区上定义接近程度的程度,而不是数据本身。
答案 0 :(得分:0)
没有“取决于数据本身”这样的东西,数据是一个抽象的术语,可以描述大象或环同构的集合。要定义任何索引,您需要使用以下两种方法之一:
总结一下。 您无法评估群集,您只能评估其对特定任务的效果,此任务可以是:
没有其他选择。无监督学习不是一个真实的,良好的问题,这只是一个工具来简化一些实际问题。因此,你永远无法说“这种聚类是好的”,你可能只会说“在假设管道X,Y,Z的情况下,这个聚类在任务A,B,C中是好的”