附加到numpy数组的最佳方法

时间:2014-09-03 16:55:38

标签: python arrays optimization numpy

我有一个numpy数组,我只需使用append将一个项目附加到它,就像这样:

numpy.append(myarray, 1)

在这种情况下,我只是附加了整数1

但这是附加到数组的最快方法吗?我有一个非常长的阵列,可以达到数万个。

或者是否更好地索引数组并直接分配它? 像这样:

myarray[123] = 1

2 个答案:

答案 0 :(得分:13)

追加numpy数组是非常低效的。这是因为解释器需要在每一步都找到并为整个数组分配内存。根据应用程序,有更好的策略。

如果您事先知道长度,最好使用np.onesnp.zerosnp.empty等函数预先分配数组。

desired_length = 500
results = np.empty(desired_length)
for i in range(desired_length):
    results[i] = i**2

如果您不知道长度,那么将结果保存在常规列表中并将其转换为数组可能会更有效。

results = []
while condition:
    a = do_stuff()
    results.append(a)
results = np.array(results)

以下是我电脑上的一些时间。

def pre_allocate():
    results = np.empty(5000)
    for i in range(5000):
        results[i] = i**2
    return results

def list_append():
    results = []
    for i in range(5000):
        results.append(i**2)
    return np.array(results)

def numpy_append():
    results = np.array([])
    for i in range(5000):
        np.append(results, i**2)
    return results

%timeit pre_allocate()
# 100 loops, best of 3: 2.42 ms per loop

%timeit list_append()
# 100 loops, best of 3: 2.5 ms per loop

%timeit numpy_append()
# 10 loops, best of 3: 48.4 ms per loop

所以你可以看到预先分配和使用列表然后转换都要快得多。

答案 1 :(得分:1)

如果在运行结束时知道数组的大小,那么预先分配适当大小的数组然后设置值会快得多。如果你确实需要动态追加,最好不要一次尝试这一个元素,而是尽可能少地追加,以避免反复生成多个副本。您可能还想对np.appendnp.hstacknp.concatenate的时间差异进行一些分析。等