评估类可分性

时间:2013-06-06 06:51:15

标签: machine-learning computer-vision cluster-analysis data-visualization

我想评估3个类的功能的可分离性,并对其他2组功能进行相同的操作,最终表明我的功能提供了最佳的可分离性。为了更清楚,我想测量不同的类以及每个类的紧凑程度。我发现散射矩阵是一个很好的选择。

我的问题是:

  1. 当数据不是线性可分的时候可以使用它们/当数据的分布未知或不是高斯时(在某些地方我读到散射矩阵在数据可线性分离或高斯分布时很有用)。< / p>

  2. 这只会给我数字,是否存在说明可分性的图形方式。我的功能是256-D,有409个数据实例。

1 个答案:

答案 0 :(得分:0)

为了评估聚类的距离,您可以进行简单的测试:计算每个聚类的平均点并查看这些点之间的距离。这不会告诉您数据是否可分离,或者数据点在群集中的分散程度,但它会告诉您正在发生的事情。

关于散射矩阵,它是协方差矩阵的近似值: 协方差矩阵(通常用于查看其特征值/向量)描述了数据点集。你在这里要问的问题是:好的,哪些方向可以最大化数据的方差,从而带来最大的能量。它不关心数据是否可线性分离或数据的分布是什么。

我认为在256维度中描绘数据的方法并不好!但你可以绘制边距等。

希望这有帮助, 亚历