为什么for native python list上的循环比numpy array

时间:2017-12-15 03:45:44

标签: python performance numpy for-loop memory

我正在阅读在高性能Python 中介绍numpy的章节,并在我自己的计算机上使用该代码。无意中我用for循环运行了numpy版本,发现与原生python循环相比,结果出乎意料地慢了。

代码的简化版本如下,其中我定义了一个带有0的二维数组X和另一个带有1的二维数组Y,然后重复地将Y添加到X,概念上X + = Y。

import time
import numpy as np

grid_shape = (1024, 1024)

def simple_loop_comparison():
    xmax, ymax = grid_shape

    py_grid = [[0]*ymax for x in range(xmax)]
    py_ones = [[1]*ymax for x in range(xmax)]

    np_grid = np.zeros(grid_shape)
    np_ones = np.ones(grid_shape)

    def add_with_loop(grid, add_grid, xmax, ymax):
        for x in range(xmax):
            for y in range(ymax):
                grid[x][y] += add_grid[x][y]

    repeat = 20
    start = time.time()
    for i in range(repeat):
        # native python: loop over 2D array
        add_with_loop(py_grid, py_ones, xmax, ymax)
    print('for loop with native list=', time.time()-start)

    start = time.time()
    for i in range(repeat):
        # numpy: loop over 2D array
        add_with_loop(np_grid, np_ones, xmax, ymax)
    print('for loop with numpy array=', time.time()-start)

    start = time.time()
    for i in range(repeat):
        # vectorized numpy operation
        np_grid += np_ones
    print('numpy vectorization=', time.time()-start)

if __name__ == "__main__":
    simple_loop_comparison()

结果如下:

# when repeat=10
for loop with native list= 2.545672655105591
for loop with numpy array= 11.622980833053589
numpy vectorization= 0.020279645919799805

# when repeat=20
for loop with native list= 5.195128440856934
for loop with numpy array= 23.241904258728027
numpy vectorization= 0.04613637924194336

我完全相信numpy矢量化操作优于其他两个但我很惊讶地看到在numpy数组上使用for循环结果明显慢于本机python列表。我的理解是,至少缓存应该相对填充numpy数组,即使使用for循环,它应该优于列表而不进行向量化。

有什么关于numpy或CPU /缓存/内存如何在低级别工作,我不明白?非常感谢你。

编辑:更改了标题

2 个答案:

答案 0 :(得分:4)

更简单的案例 - 列表与数组的列表理解:

In [119]: x = list(range(1000000))
In [120]: timeit [i for i in x]
47.4 ms ± 634 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [121]: arr = np.array(x)
In [122]: timeit [i for i in arr]
131 ms ± 3.69 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

列表有一个数据缓冲区,其中包含指向内存中其他对象的指针。因此,迭代或索引列表只需要查找该指针并获取对象:

In [123]: type(x[1000])
Out[123]: int

数组将其元素作为字节存储在数据填充器中。获取元素需要找到这些字节(快速),然后将它们包装在一个numpy对象中(根据dtype)。这样的对象类似于0d单元素数组(具有许多相同的属性)。

In [124]: type(arr[1000])
Out[124]: numpy.int32

这个索引不只是获取数字,而是重新创建它。

我经常将对象dtype数组描述为增强或降级列表。像列表一样,它包含指向内存中其他对象的指针,但不能通过append增长。我们经常说它失去了数字数组的许多好处。但它的迭代速度在另外两个之间:

In [125]: arrO = np.array(x, dtype=object)
In [127]: type(arrO[1000])
Out[127]: int
In [128]: timeit [i for i in arrO]
74.5 ms ± 1.42 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

无论如何,我在其他SO答案中找到了,如果你必须迭代,坚持使用列表。如果你从列表开始,那么坚持使用列表通常会更快。如您所知,numpy vector速度很快,但创建阵列需要时间,这可能会节省任何时间。

比较从此列表创建数组所花费的时间,以及从头开始创建此类数组所需的时间(使用已编译的numpy代码):

In [129]: timeit np.array(x)
109 ms ± 1.97 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
In [130]: timeit np.arange(len(x))
1.77 ms ± 31.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

答案 1 :(得分:0)

因为它们涉及向数据指针请求numpy,在这些指针位置检索值,然后使用它们进行迭代所涉及的转换。 python列表中的一些步骤较少。只有在内部迭代或执行向量,矩阵数学,然后返回并回答或指向一组答案时,才会注意到Numpy速度增益。