Python中相似度矩阵的高效计算(NumPy)

时间:2018-02-21 13:29:01

标签: python performance numpy vectorization similarity

X成为Bxn numpy矩阵,即

import numpy as np
B = 10
n = 2
X = np.random.random((B, n))

现在,我对计算所谓的内核(或甚至相似性)矩阵K感兴趣,该矩阵的形状为BxB,并且给出了{i,j}个元素如下:

K(i,j)= fun(x_i,x_j)

其中x_t表示矩阵t的{​​{1}}行,Xfunx_i的某个函数。例如,该函数可以是所谓的RBF函数,即

K(i,j)= exp( - | x_i - x_j | ^ 2)。

为此,一种天真的方式如下:

x_j

我想要的是以矢量化的方式进行上述操作,以提高效率。你能帮忙吗?

3 个答案:

答案 0 :(得分:6)

如果你利用broadcasting的力量,这肯定可以单独使用numpy。

你只需要以矢量化方式编写内部距离范数计算:

X1 = X[:, np.newaxis, :]
X2 = X[np.newaxis, :, :]
K = np.exp(-np.sum((X1 - X2)**2, axis=-1))

答案 1 :(得分:4)

不要对其进行矢量化,只需编译它

这几乎每次都更快,代码更容易阅读。 由于可以使用像Numba这样的好的jit编译器,这是一件非常简单的事情。

在你的情况下:

import numpy as np
import numba as nb
@nb.njit(fastmath=True)
def Test_1(X):
  K = np.zeros((B, B))
  for i in range(X.shape[0]):
      x_i = X[i, :]
      for j in range(X.shape[0]):
          x_j = X[j, :]
          K[i, j] = np.exp(-np.linalg.norm(x_i - x_j, 2) ** 2)

  return K

并行化函数也很容易:

import numpy as np
import numba as nb
@nb.njit(fastmath=True,parallel=True)
def Test_1(X):
  K = np.zeros((B, B))
  for i in nb.prange(X.shape[0]):
      x_i = X[i, :]
      for j in range(X.shape[0]):
          x_j = X[j, :]
          K[i, j] = np.exp(-np.linalg.norm(x_i - x_j, 2) ** 2)

  return K

这很容易胜过目前为止提供的所有其他解决方案。第一个函数调用需要大约0.5秒,因为这里代码是编译的,但我想你想多次调用这个函数。

如果使用单线程版本,还可以缓存编译结果。多线程代码的缓存很快就会实现。

答案 2 :(得分:2)

我不确定你是否只能使用numpy。我会使用scipy库中的方法cdist,如下所示:

import numpy as np 
from scipy.spatial.distance import cdist
B=5
X=np.random.rand(B*B).reshape((B,B))
dist = cdist(X, X, metric='euclidean')
K = np.exp(dist)

dist
array([[ 0.        ,  1.2659804 ,  0.98231231,  0.80089176,  1.19326493],
       [ 1.2659804 ,  0.        ,  0.72658078,  0.80618767,  0.3776364 ],
       [ 0.98231231,  0.72658078,  0.        ,  0.70205336,  0.81352455],
       [ 0.80089176,  0.80618767,  0.70205336,  0.        ,  0.60025858],
       [ 1.19326493,  0.3776364 ,  0.81352455,  0.60025858,  0.        ]])
K
array([[ 1.        ,  3.5465681 ,  2.67062441,  2.22752646,  3.29783084],
       [ 3.5465681 ,  1.        ,  2.06799756,  2.23935453,  1.45883242],
       [ 2.67062441,  2.06799756,  1.        ,  2.01789192,  2.25584482],
       [ 2.22752646,  2.23935453,  2.01789192,  1.        ,  1.82259002],
       [ 3.29783084,  1.45883242,  2.25584482,  1.82259002,  1.        ]])

希望这可以帮到你。干得好

EDIT 你也可以只使用numpy数组,用于theano实现:

dist = (X ** 2).sum(1).reshape((X.shape[0], 1)) + (X ** 2).sum(1).reshape((1, X.shape[0])) - 2 * X.dot(X.T)

应该有用!