聚类非正态分布数据的距离度量

时间:2019-08-26 23:04:48

标签: cluster-analysis distance non-uniform-distribution

我要聚类的数据集由〜1000个样本和10个要素组成,这些要素具有不同的比例和范围(负,正,均)。使用scipy.stats.normaltest(),我发现没有一个特征是正态分布的(所有p值<1e-4,小得足以拒绝零假设,即数据取自正态分布)。但是我所知道的所有距离度量都假设数据是正态分布的(我一直使用Mahalanobis,直到我意识到数据的不均匀性为止)。在这种情况下,将使用什么距离度量?还是仅仅需要对每个功能进行标准化并希望不会带来偏差?

1 个答案:

答案 0 :(得分:0)

为什么您认为所有距离都假设正常数据(顺便说一句,它与统一数据不同)?

考虑欧几里得距离。在许多物理应用中,此距离非常合理,因为它是“乌鸦飞翔时”。当运动被限制在两个不能同时使用的轴上时,曼哈顿距离就变得很有意义。这些完全适用于非正态分布数据。