我要聚类的数据集由〜1000个样本和10个要素组成,这些要素具有不同的比例和范围(负,正,均)。使用scipy.stats.normaltest(),我发现没有一个特征是正态分布的(所有p值<1e-4,小得足以拒绝零假设,即数据取自正态分布)。但是我所知道的所有距离度量都假设数据是正态分布的(我一直使用Mahalanobis,直到我意识到数据的不均匀性为止)。在这种情况下,将使用什么距离度量?还是仅仅需要对每个功能进行标准化并希望不会带来偏差?
答案 0 :(得分:0)
为什么您认为所有距离都假设正常数据(顺便说一句,它与统一数据不同)?
考虑欧几里得距离。在许多物理应用中,此距离非常合理,因为它是“乌鸦飞翔时”。当运动被限制在两个不能同时使用的轴上时,曼哈顿距离就变得很有意义。这些完全适用于非正态分布数据。