我正在寻找NumPy计算两个numpy数组(x和y)之间的Mahalanobis距离的方法。 以下代码可以使用Scipy的cdist函数正确计算相同的代码。由于此函数在我的情况下计算不必要的matix,我想要更直接的方式使用NumPy计算它。
import numpy as np
from scipy.spatial.distance import cdist
x = np.array([[[1,2,3,4,5],
[5,6,7,8,5],
[5,6,7,8,5]],
[[11,22,23,24,5],
[25,26,27,28,5],
[5,6,7,8,5]]])
i,j,k = x.shape
xx = x.reshape(i,j*k).T
y = np.array([[[31,32,33,34,5],
[35,36,37,38,5],
[5,6,7,8,5]],
[[41,42,43,44,5],
[45,46,47,48,5],
[5,6,7,8,5]]])
yy = y.reshape(i,j*k).T
results = cdist(xx,yy,'mahalanobis')
results = np.diag(results)
print results
[ 2.28765854 2.75165028 2.75165028 2.75165028 0. 2.75165028
2.75165028 2.75165028 2.75165028 0. 0. 0. 0.
0. 0. ]
我的试用版:
VI = np.linalg.inv(np.cov(xx,yy))
print np.sqrt(np.dot(np.dot((xx-yy),VI),(xx-yy).T))
有人能纠正这种方法吗?
以下是它的公式:
答案 0 :(得分:11)
我认为您的问题在于构建协方差矩阵。尝试:
X = np.vstack([xx,yy])
V = np.cov(X.T)
VI = np.linalg.inv(V)
print np.diag(np.sqrt(np.dot(np.dot((xx-yy),VI),(xx-yy).T)))
输出:
[ 2.28765854 2.75165028 2.75165028 2.75165028 0. 2.75165028
2.75165028 2.75165028 2.75165028 0. 0. 0. 0.
0. 0. ]
要在没有在此隐式创建的中间数组的情况下执行此操作,您可能不得不牺牲Python循环的C循环:
A = np.dot((xx-yy),VI)
B = (xx-yy).T
n = A.shape[0]
D = np.empty(n)
for i in range(n):
D[i] = np.sqrt(np.sum(A[i] * B[:,i]))
编辑:实际上,使用np.einsum
voodoo,您可以移除Python循环并加速它(在我的系统上,从84.3μs到2.9μs):
D = np.sqrt(np.einsum('ij,ji->i', A, B))
编辑:@Warren Weckesser指出,einsum
也可以用来取消中间A
和B
数组:
delta = xx - yy
D = np.sqrt(np.einsum('nj,jk,nk->n', delta, VI, delta))
答案 1 :(得分:1)
另一个简单的解决方案,与einsum一样快
e = xx-yy
X = np.vstack([xx,yy])
V = np.cov(X.T)
p = np.linalg.inv(V)
D = np.sqrt(np.sum(np.dot(e,p) * e, axis = 1))