Question

我有784个维度的60000个向量。该数据有10个类别。

我必须评估一个可以提取一维并再次计算距离度量的函数。此函数正在计算每个向量到其类均值的距离。在代码中：

def objectiveFunc(self, X, y, indices):

    subX = np.array([X[:,i] for i in indices]).T
    d = np.zeros((10,1))
    for n in range(10):
        C = subX[np.where(y == n)]
        u = np.mean(C, axis = 0)
        Sinv = pinv(covariance(C))
        d[n] = np.mean(np.apply_along_axis(mahalanobis, axis = 1, arr=C, v=u, VI=Sinv))

在每次迭代中删除一个索引的情况下输入索引。

您可以想象，在计算马氏距离时，我正在计算许多单独的分量。我有办法存储所有784个分量距离吗？

或者，计算马氏距离的最快方法是什么？

Answer 1

首先，为了便于理解，这是马氏距离公式：

因此，要根据元素的类别计算每个元素的马哈拉诺比斯距离，我们可以这样做：

X_train=X_train.reshape(-1,784)

def mahalanobis(element,classe):
    part=np.where(y_train==classe)[0]
    ave=np.mean(X_train[part])
    distance_example=np.sqrt(((np.mean(X_train[part[[element]]])-ave)**2)/np.var(X_train[part]))
    return distance_example

mahalanobis(20,2)    
# Out[91]: 0.13947337027828757

然后，您可以创建一个for语句来计算所有距离。例如，类0：

[mahalanobis(i,0) for i in range(0,len(X_train[np.where(y_train==0)[0]]))]

计算马氏距离分量明智

1 个答案: