为什么NumPy阵列如此之快?

时间:2011-12-05 12:53:06

标签: python arrays numpy

我刚刚更改了一个我正在编写的程序,将我的数据保存为numpy数组,因为我遇到了性能问题,而且差别很大。最初运行需要30分钟,现在需要2.5秒!

我想知道它是怎么做到的。我认为这是因为它消除了对for循环的需要,但除此之外我感到难过。

5 个答案:

答案 0 :(得分:77)

Numpy数组是密集的同类型数组。相比之下,Python列表是指向对象的指针数组,即使它们都属于同一类型。因此,您可以获得locality of reference的好处。

此外,许多Numpy操作都是用C实现的,避免了Python中的循环,指针间接和每元素动态类型检查的一般成本。速度提升取决于您正在执行的操作,但在数字运算程序中,几个数量级并不罕见。

答案 1 :(得分:15)

numpy数组是专门的数据结构。 这意味着您不仅可以获得高效的内存中表示的好处,还可以获得高效的专用实现。

E.g。如果你总结两个数组,那么将使用专门的CPU vector operations执行添加,而不是在循环中调用int addition的python实现。

答案 2 :(得分:1)

你仍然有for循环,但它们是在c中完成的。 Numpy基于Atlas,这是一个用于线性代数运算的库。

http://math-atlas.sourceforge.net/

当面对大量计算时,它将使用多个实现运行测试,以找出目前我们计算机上哪个是最快的。通过一些numpy构建,可以在多个cpu上并行化。因此,您将在连续内存块上运行高度优化的c。

答案 3 :(得分:0)

Numpy数组极其类似于'普通'数组,例如c中的数组。请注意,每个元素必须属于同一类型。加速是很好的,因为你可以利用预取,你可以通过它的索引立即访问数组中的任何元素。

答案 4 :(得分:0)

考虑以下代码:

import numpy as np
import time

a = np.random.rand(1000000)
b = np.random.rand(1000000)

tic = time.time()
c = np.dot(a, b)
toc = time.time()

print("Vectorised version: " + str(1000*(toc-tic)) + "ms")

c = 0
tic = time.time()
for i in range(1000000):
    c += a[i] * b[i]
toc = time.time()

print("For loop: " + str(1000*(toc-tic)) + "ms")

输出:

Vectorised version: 2.011537551879883ms
For loop: 539.8685932159424ms

这里的Numpy速度更快,因为它利用了并行性(单指令多数据(SIMD)的情况),而传统的for循环无法使用它。