应用错误收集

聚类非正态分布数据的距离度量

时间：2019-08-26 23:04:48

标签： cluster-analysis distance non-uniform-distribution

我要聚类的数据集由〜1000个样本和10个要素组成，这些要素具有不同的比例和范围（负，正，均）。使用scipy.stats.normaltest（），我发现没有一个特征是正态分布的（所有p值<1e-4，小得足以拒绝零假设，即数据取自正态分布）。但是我所知道的所有距离度量都假设数据是正态分布的（我一直使用Mahalanobis，直到我意识到数据的不均匀性为止）。在这种情况下，将使用什么距离度量？还是仅仅需要对每个功能进行标准化并希望不会带来偏差？

1 个答案:

答案 0 :(得分：0)

为什么您认为所有距离都假设正常数据（顺便说一句，它与统一数据不同）？

考虑欧几里得距离。在许多物理应用中，此距离非常合理，因为它是“乌鸦飞翔时”。当运动被限制在两个不能同时使用的轴上时，曼哈顿距离就变得很有意义。这些完全适用于非正态分布数据。