让X
成为Bxn
numpy
矩阵,即
import numpy as np
B = 10
n = 2
X = np.random.random((B, n))
现在,我对计算所谓的内核(或甚至相似性)矩阵K
感兴趣,该矩阵的形状为BxB
,并且给出了{i,j}
个元素如下:
K(i,j)= fun(x_i,x_j)
其中x_t
表示矩阵t
的{{1}}行,X
是fun
,x_i
的某个函数。例如,该函数可以是所谓的RBF函数,即
K(i,j)= exp( - | x_i - x_j | ^ 2)。
为此,一种天真的方式如下:
x_j
我想要的是以矢量化的方式进行上述操作,以提高效率。你能帮忙吗?
答案 0 :(得分:6)
如果你利用broadcasting的力量,这肯定可以单独使用numpy。
你只需要以矢量化方式编写内部距离范数计算:
X1 = X[:, np.newaxis, :]
X2 = X[np.newaxis, :, :]
K = np.exp(-np.sum((X1 - X2)**2, axis=-1))
答案 1 :(得分:4)
不要对其进行矢量化,只需编译它
这几乎每次都更快,代码更容易阅读。 由于可以使用像Numba这样的好的jit编译器,这是一件非常简单的事情。
在你的情况下:
import numpy as np
import numba as nb
@nb.njit(fastmath=True)
def Test_1(X):
K = np.zeros((B, B))
for i in range(X.shape[0]):
x_i = X[i, :]
for j in range(X.shape[0]):
x_j = X[j, :]
K[i, j] = np.exp(-np.linalg.norm(x_i - x_j, 2) ** 2)
return K
并行化函数也很容易:
import numpy as np
import numba as nb
@nb.njit(fastmath=True,parallel=True)
def Test_1(X):
K = np.zeros((B, B))
for i in nb.prange(X.shape[0]):
x_i = X[i, :]
for j in range(X.shape[0]):
x_j = X[j, :]
K[i, j] = np.exp(-np.linalg.norm(x_i - x_j, 2) ** 2)
return K
这很容易胜过目前为止提供的所有其他解决方案。第一个函数调用需要大约0.5秒,因为这里代码是编译的,但我想你想多次调用这个函数。
如果使用单线程版本,还可以缓存编译结果。多线程代码的缓存很快就会实现。
答案 2 :(得分:2)
我不确定你是否只能使用numpy。我会使用scipy库中的方法cdist,如下所示:
import numpy as np
from scipy.spatial.distance import cdist
B=5
X=np.random.rand(B*B).reshape((B,B))
dist = cdist(X, X, metric='euclidean')
K = np.exp(dist)
dist
array([[ 0. , 1.2659804 , 0.98231231, 0.80089176, 1.19326493],
[ 1.2659804 , 0. , 0.72658078, 0.80618767, 0.3776364 ],
[ 0.98231231, 0.72658078, 0. , 0.70205336, 0.81352455],
[ 0.80089176, 0.80618767, 0.70205336, 0. , 0.60025858],
[ 1.19326493, 0.3776364 , 0.81352455, 0.60025858, 0. ]])
K
array([[ 1. , 3.5465681 , 2.67062441, 2.22752646, 3.29783084],
[ 3.5465681 , 1. , 2.06799756, 2.23935453, 1.45883242],
[ 2.67062441, 2.06799756, 1. , 2.01789192, 2.25584482],
[ 2.22752646, 2.23935453, 2.01789192, 1. , 1.82259002],
[ 3.29783084, 1.45883242, 2.25584482, 1.82259002, 1. ]])
希望这可以帮到你。干得好
EDIT 你也可以只使用numpy数组,用于theano实现:
dist = (X ** 2).sum(1).reshape((X.shape[0], 1)) + (X ** 2).sum(1).reshape((1, X.shape[0])) - 2 * X.dot(X.T)
应该有用!