Python列表与numpy

时间:2016-06-09 22:43:26

标签: python arrays numpy

所以,我有一个脚本片段:

lol = []
latv1 = 0
latv2 = 0
latv3 = 0

#Loop a
for a in range(100):

    #Refresh latv2 after each iteration of loop a
    latv2 = 0

    #Loop b
    for b in range(100):

        #Refresh latv3 after each iteration of loop b
        latv3 = 0

        #Loop c        
        for c in range(100):

            #Make 4 value list according to iteration and append to lol
            midl2 = [latv1,latv2,latv3,0]
            lol.append(midl2)

            #Iterate after loop
            latv3 = latv3 + 1
        latv2 = latv2 + 1
    latv1 = latv1 + 1

哪个会做我想做的事......但速度很慢。它给出了:

[[0,0,0,0]
 [0,0,1,0]
 ...
 [0,1,0,0]
 [0,1,1,0]
 ...
 [9,9,8,0]
 [9,9,9,0]]

我已经读过numpy及其速度和优化。我无法弄清楚如何用numpy实现上面的内容。我已经学会了如何通过手册制作一个numpy的零数组:

numpy_array = np.zeroes((100,4))

给予:

[[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 ..., 
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]]

并可以使用以下内容更改每列的值:

numpA  = np.arange(0,100,1)
numpB  = np.arange(0,100,1
numpC  = np.arange(0,100,1)
numArr[:,0] = numpA
numArr[:,1] = numpB
numArr[:,2] = numpC

,并提供:

[[   0.    0.    0.    0.]
 [   1.    1.    1.    0.]
 [   2.    2.    2.    0.]
 ..., 
 [ 997.  997.  997.    0.]
 [ 998.  998.  998.    0.]
 [ 999.  999.  999.    0.]]

但我不能创建一个1000000行的numpy数组,并且像原始示例一样增加列。如果我使用1000000而不是100调用零数组创建,则列替换不起作用,这是有意义的,因为数组的长度和替换是不相等的 - 但我不确定如何正确迭代替换数组才能工作。

如何通过numpy数组复制原始脚本输出?

注意:这是一台python 2.7机器,但它至少是64位。我知道RAM使用是一个问题,但我应该能够改变数组的dtype以满足我的需要。

1 个答案:

答案 0 :(得分:5)

方法#1

要创建NumPy等效的已发布代码并将NumPy数组作为输出,您还可以使用itertools,就像这样 -

from itertools import product

out = np.zeros((N**3,4),dtype=int)
out[:,:3] = list(product(np.arange(N), repeat=3))

请注意,N = 100等同于发布的代码。

方法#2

基于纯粹的NumPy和使用它的矢量化broadcasting功能的另一种可能更快的方法可以这样建议 -

out = np.zeros((N**3,4),dtype=int)
out[:,:3] = (np.arange(N**3)[:,None]/[N**2,N,1])%N

我认为这比之前基于itertools的更快,因为它创建了一个要设置为NumPy数组的元组列表。我们将在下一节中测试这个理论。

运行时测试

In [111]: def itertools_based(N):
     ...:     out = np.zeros((N**3,4),dtype=int)
     ...:     out[:,:3] = list(product(np.arange(N), repeat=3))
     ...:     return out
     ...: 
     ...: def broadcasting_based(N):
     ...:     out = np.zeros((N**3,4),dtype=int)
     ...:     out[:,:3] = (np.arange(N**3)[:,None]/[N**2,N,1])%N
     ...:     return out


In [112]: N = 20

In [113]: np.allclose(itertools_based(N),broadcasting_based(N)) # Verify results
Out[113]: True

In [114]: %timeit itertools_based(N)
100 loops, best of 3: 7.42 ms per loop

In [115]: %timeit broadcasting_based(N)
1000 loops, best of 3: 1.23 ms per loop

现在,让我们来创建这些迭代元素的元组列表,并将其放在基于NumPy的元素列表上 -

In [116]: %timeit list(product(np.arange(N), repeat=3))
1000 loops, best of 3: 746 µs per loop

In [117]: %timeit (np.arange(N**3)[:,None]/[N**2,N,1])%N
1000 loops, best of 3: 1.09 ms per loop

嗯,所以itertools-based的创建部分现在更快,正如之前预测/想出的那样!因此,如果您对前三列作为输出感到满意并且它们是元组列表,那么请使用itertools