Question

当我们必须处理10k维度的向量时，python中的外部产品似乎相当慢。有人可以告诉我如何在python中加快这个操作？

代码如下：

 In [8]: a.shape
 Out[8]: (128,)

 In [9]: b.shape
 Out[9]: (32000,)

 In [10]: %timeit np.outer(b,a)
 100 loops, best of 3: 15.4 ms per loop

由于我必须多次执行此操作，因此我的代码变慢了。

Answer 1

它真的没有比这更快，这些是你的选择：

<强> numpy.outer

>>> %timeit np.outer(a,b)
100 loops, best of 3: 9.79 ms per loop

<强> numpy.einsum

>>> %timeit np.einsum('i,j->ij', a, b)
100 loops, best of 3: 16.6 ms per loop

<强> numba

from numba.decorators import autojit

@autojit
def outer_numba(a, b):
    m = a.shape[0]
    n = b.shape[0]
    result = np.empty((m, n), dtype=np.float)
    for i in range(m):
        for j in range(n):
            result[i, j] = a[i]*b[j]
    return result

>>> %timeit outer_numba(a,b)
100 loops, best of 3: 9.77 ms per loop

<强>鹦鹉

from parakeet import jit

@jit
def outer_parakeet(a, b):
   ... same as numba

>>> %timeit outer_parakeet(a, b)
100 loops, best of 3: 11.6 ms per loop

<强>用Cython

cimport numpy as np
import numpy as np
cimport cython
ctypedef np.float64_t DTYPE_t

@cython.boundscheck(False)
@cython.wraparound(False)
def outer_cython(np.ndarray[DTYPE_t, ndim=1] a, np.ndarray[DTYPE_t, ndim=1] b):
    cdef int m = a.shape[0]
    cdef int n = b.shape[0]
    cdef np.ndarray[DTYPE_t, ndim=2] result = np.empty((m, n), dtype=np.float64)
    for i in range(m):
        for j in range(n):
            result[i, j] = a[i]*b[j]
    return result

>>> %timeit outer_cython(a, b)
100 loops, best of 3: 10.1 ms per loop

<强> theano

from theano import tensor as T
from theano import function

x = T.vector()
y = T.vector()

outer_theano = function([x, y], T.outer(x, y))

>>> %timeit outer_theano(a, b)
100 loops, best of 3: 17.4 ms per loop

<强> pypy

# Same code as the `outer_numba` function
>>> timeit.timeit("outer_pypy(a,b)", number=100, setup="import numpy as np;a = np.random.rand(128,);b = np.random.rand(32000,);from test import outer_pypy;outer_pypy(a,b)")*1000 / 100.0
16.36 # ms

的结论：

╔═══════════╦═══════════╦═════════╗ ║ method ║ time(ms)* ║ version ║ ╠═══════════╬═══════════╬═════════╣ ║ numba ║ 9.77 ║ 0.16.0 ║ ║ np.outer ║ 9.79 ║ 1.9.1 ║ ║ cython ║ 10.1 ║ 0.21.2 ║ ║ parakeet ║ 11.6 ║ 0.23.2 ║ ║ pypy ║ 16.36 ║ 2.4.0 ║ ║ np.einsum ║ 16.6 ║ 1.9.1 ║ ║ theano ║ 17.4 ║ 0.6.0 ║ ╚═══════════╩═══════════╩═════════╝ * less time = faster

Answer 2

@ elyase的答案很棒，并且得到了正确的接受。这是一个额外的建议，如果你可以使用它，可能会更快地调用np.outer。

您说“我必须多次执行此操作”，因此您可以重复使用包含外部产品的阵列，而不是每次都分配一个新的。这可以提高性能。

首先，使用一些随机数据：

In [32]: a = np.random.randn(128)

In [33]: b = np.random.randn(32000)

这是我计算机上np.outer（a，b）的基线时间：

In [34]: %timeit np.outer(a, b)
100 loops, best of 3: 5.52 ms per loop

假设我们将使用相同形状的数组重复该操作几次。创建一个out数组来保存结果：

In [35]: out = np.empty((128, 32000))

现在使用out作为np.outer的第三个参数：

In [36]: %timeit np.outer(a, b, out)
100 loops, best of 3: 2.38 ms per loop

如果您可以重用包含外部产品的数组，那么您可以获得良好的性能提升。

如果您使用out的{{1}}参数，并且在cython函数中为输出添加第三个参数而不是在{{1 }}。（@ elyase的答案中的其他编译/ jitted代码也可能从中受益，但我只尝试了cython版本。）

Nota bene！上面显示的好处可能在实践中无法实现。 einsum数组适合我的CPU的L3缓存，当它在np.empty命令执行的循环中使用时，它可能保留在缓存中。实际上，在调用out之间，数组可能会移出缓存。在这种情况下，改进并不是那么显着，但至少应该是调用timeit的成本，即

np.outer

Answer 3

它应该像使用numpy.outer()一样简单：单个函数调用将在C中实现，以实现高性能。

python中的高效外部产品

3 个答案:

的结论：