点与平均向量之间的马哈拉诺比斯距离始终相同

时间:2017-09-04 09:46:02

标签: java data-mining mahout data-cleansing mahalanobis

我正在尝试最近执行一些数据清理算法。当我尝试计算数据集中点与平均向量之间的马哈拉诺比斯距离时,它看起来是一样的。

例如,我有一个类似的数据集:

{{2,2,3},{4,5,9},{7,8,9}}

平均向量是:

{13/3,5,7}

协方差矩阵是:

{{6.333333333333333,7.5,7.0},{7.5,9.0,9.0},{7.0,9.0,12.0}}

然后{2,2,3},{4,5,9},{7,8,9}和平均向量之间的距离都是8290542,这很奇怪。在纸上计算后,结果是一样的。

有谁知道我的代码或想法有什么问题?如果有人可以帮助我,我会感激不尽。以下是我用来处理这个问题的一些代码。

import org.apache.commons.math3.linear.RealMatrix;
import org.apache.commons.math3.stat.correlation.Covariance;
import org.apache.mahout.math.*;
import org.apache.mahout.common.distance.MahalanobisDistanceMeasure;

public class Test {

    public static void main(String[] args) {
        double[] a = {2,2,3};
        Vector aVector = new DenseVector(a);

        double[] b = {4,5,9};
        Vector bVector = new DenseVector(b);

        double[] c = {7,8,9};
        Vector cVector = new DenseVector(b);


        double[] mean = {13/3,5,7};
        Vector meanVector = new DenseVector(mean);

        MahalanobisDistanceMeasure measure = new MahalanobisDistanceMeasure();

        double[][] ma = {{2,2,3},{4,5,9},{7,8,9}};
        RealMatrix matrix = new Covariance(ma).getCovarianceMatrix();
        Matrix math = new DenseMatrix(matrix.getData());

        measure.setCovarianceMatrix(math);

        measure.setMeanVector(meanVector);
        System.out.println(matrix.toString());
        System.out.println(measure.distance(meanVector,cVector));

    }


}

1 个答案:

答案 0 :(得分:1)

需要才能使用更多数据。

平均向量+协方差矩阵否则将过度拟合到您的数据,并且每个都给出相同的距离。

对于3d数据,请至少使用20个点。