我正在对算法进行时间复杂度分析,需要了解某些numpy操作具有何种复杂度。
对于某些人,我认为它们与基础数学运算匹配。像np.dot(array1, array2)
将是O(n)。对于其他人,我不确定。例如,np.array(my_array)
是O(1)吗?还是O(n)?它只是重新分配一个指针还是在列表上进行迭代并复制出每个值?
我想确定每个操作的复杂性。在哪里可以找到此信息?还是我应该假设它们符合数学运算?
答案 0 :(得分:3)
对于特定示例np.array(my_array)
,因为它需要遍历 my_array 的所有元素,分配内存并初始化值,所以它是线性发生的。
有一个Python模块 big_O ,可用于从函数执行时间开始分析其复杂性。
有关更多信息,请参考此link
答案 1 :(得分:2)
BigO复杂度通常不用于Python和numpy。它衡量代码如何随问题大小扩展。这在像C这样的编译语言中很有用。但是这里的代码是解释性Python和编译后代码的混合。两者可以具有相同的bigO,但是解释版本将慢几个数量级。这就是为什么大多数SO有关提高numpy速度,谈论“删除循环”和“向量化”的问题。
还有很少的操作是纯O(n);大多数是混合的。有安装成本,还有每件成本。如果单件成本很小,则安装成本将占主导地位。
如果从列表开始,则在列表上进行迭代通常会更快,因为将列表转换为数组会产生大量开销(O(n))。
如果您已经拥有数组,则尽可能避免(python级)迭代。迭代是大多数计算的一部分,但是numpy可以让您在更快的编译代码(更快的O(n))中完成很多工作。
在某些时候,您必须了解numpy如何存储其数组。 view
和copy
之间的区别很重要。视图实际上是O(1),副本是O(n)。
通常您会看到SO答案可以进行timeit
速度比较。我经常加警告,结果可能会因问题大小而异。更好的答案将解决各种尺寸问题,并在漂亮的图中显示结果。结果通常是直线(O(n))和曲线(O(1)和O(n)分量的混合)的混合。
您专门询问了np.array
。以下是一些示例计时:
In [134]: %%timeit alist = list(range(1000))
...: np.array(alist)
67.9 µs ± 839 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
In [135]: %%timeit alist = list(range(10))
...: np.array(alist)
2.19 µs ± 9.88 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
In [136]: %%timeit alist = list(range(2000))
...: np.array(alist)
134 µs ± 1.98 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
复制数组:
In [137]: %%timeit alist = list(range(2000)); arr=np.array(alist)
...: np.array(arr)
1.77 µs ± 24.3 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
无副本:
In [138]: %%timeit alist = list(range(2000)); arr=np.array(alist)
...: np.array(arr, copy=False)
237 ns ± 1.1 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
来自字符串列表:
In [139]: %%timeit alist = [str(i) for i in range(2000)]
...: np.array(alist, dtype=int)
286 µs ± 4.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
numpy
中的几乎所有计算都为O(n)。如果涉及到数组的每个元素,则速度将取决于数组的大小。某些数组操作是O(1),例如重塑,因为它们实际上对数据不做任何事情。它们会改变形状和步幅等属性。
搜索问题的增长速度通常快于O(n);通常numpy
并不是解决此类问题的最佳选择。使用精明的Python列表和字典可以更快。