在Python中创建嵌套列表的时间复杂性

时间:2011-11-05 22:49:54

标签: python performance time-complexity

我在Python 2.6.6中创建嵌套列表时遇到了一个奇怪的现象。

考虑以下两个功能:

def lists(n):
    start_time = time.time()
    lists = [None]*n
    for i in xrange(n):
            lists[i] = [None]*n
            for j in xrange(n):
                    lists[i][j] = []
    print time.time() - start_time

def simple_lists(n):
    start_time = time.time()
    lists = [None]*n
    for i in xrange(n):
            lists[i] = [None]*n
            for j in xrange(n):
                    lists[i][j] = False
    print time.time() - start_time

它们都分配一个大小为n * n的数组。一个将所有值指定为“False”,并将一个值指定为空列表。就我所见,它们都应该以O(n ^ 2)运行。但是,似乎并非如此......观察以下测试运行:

>>> for i in [4000, 8000, 16000]: simple_lists(i)
2.11170578003
8.67467808723
34.0958559513
>>> for i in [1000, 2000, 4000]: lists(i)
1.13742399216
7.39806008339
78.0808939934

正如您所看到的,simple_lists()似乎大致增长为O(n ^ 2),而lists()似乎增长超过O(n ^ 3)!

这里发生了什么?这个怪癖完全彻底破坏了我的代码的复杂性,我无法解释为什么它的行为是这样的。有没有人有任何想法?

编辑:列表推导似乎会导致相同的复杂性问题。

重新定义列表(),如

def lists(n):
    start_time = time.time()
    lists = [[[] for y in xrange(n)] for x in xrange(n)]
    print time.time() - start_time

导致以下结果

>>> for i in [1000, 2000, 4000]: lists(i)
0.388785839081
4.45830011368
65.6449248791

......它仍然以比O(n ^ 2)更快的速度增长(甚至比O(n ^ 3)更快 - sheesh)。

edit2:在进一步研究问题之后,它似乎是由垃圾收集器引起的。运行gc.disable()后,这是原始lists()定义的结果:

>>> for i in [1000, 2000, 4000]: lists(i)
...
0.155457019806
0.616811990738
2.38965821266

非常整齐地O(n ^ 2)。

故事的道德:不要相信垃圾收集者!

3 个答案:

答案 0 :(得分:2)

在我的机器上

for i in [1000, 2000, 4000]: lists(i)

给出

0.994000196457
4.31200003624
17.9900000095

这是一个很好的整洁O(n ^ 2)。最后一个消耗1GB内存,因此列表(8000)会使硬盘驱动器瘫痪并导致我的机器行为异常。 delnan可能是正确的,我会在操作过程中检查你的机器的空闲内存和python的内存消耗。

答案 1 :(得分:2)

原来这种奇怪的行为是由垃圾收集器引起的。用gc.disable()关闭它会产生以下结果:

>>> for i in [1000, 2000, 4000]: lists(i)
...
0.155457019806
0.616811990738
2.38965821266

像手套一样适合O(n ^ 2)。

答案 2 :(得分:0)

首先生成第一个列表,它将在O(n)时间内完成。

def simple_list(n):
    import time
    start_time = time.process_time()
    k=[[] for y in range(n)]
    lists = [k for x in range(n)]
    end_time=time.process_time()
    print (end_time - start_time)