无监督问题的聚类分析 - 不依赖于邻近度量的验证

时间:2014-11-04 06:33:01

标签: validation machine-learning cluster-analysis

是否有任何内部有效性指数/方法来评估我的算法质量,这些指标/方法主要不依赖于邻近度量(例如,距离矩阵)? 所有常规度量(例如:轮廓,Dunn索引,N切割,DB索引等)取决于您在数据和最终分区上定义接近程度的程度,而不是数据本身。

1 个答案:

答案 0 :(得分:0)

没有“取决于数据本身”这样的东西,数据是一个抽象的术语,可以描述大象或环同构的集合。要定义任何索引,您需要使用以下两种方法之一:

  • 在有监督的场景中(当你知道某些类别的对象时,并非过分地使用它进行分类,但你必须知道它们)你可以使用这些标签来计算杂质或任何其他分类得出的分数
  • 在无人监督的场景中你必须使用一些相似性度量,这可能是非常随意的,它可能是某个度量的倒数,但它可能是完全抽象的度量来源于询问某些人“是这些元素类似吗?“,它可能包含无法比较的元素(矩阵中的”nans“),它可能不对称,但某些相似性度量至关重要,没有”神奇“, “深”意味着“在数据中”。您可以从一些不同的模型(如生成模型,自动编码器等)中提取相似性度量,但它在概念上仍然是相同的,而不是手动给出规则,您手动提供算法来提取规则。

总结一下。 您无法评估群集,您只能评估其对特定任务的效果,此任务可以是:

  • 一个更大的问题,集群只是其中一个步骤,你插入集群并观察整个系统质量的变化
  • 优化某些基于阶级的标准(监督)
  • 基于某些相似性/距离的标准的优化(无监督)

没有其他选择。无监督学习是一个真实的,良好的问题,这只是一个工具来简化一些实际问题。因此,你永远无法说“这种聚类是好的”,你可能只会说“在假设管道X,Y,Z的情况下,这个聚类在任务A,B,C中是好的”