Eratosthenes的筛子速度差异

时间:2014-01-20 18:51:44

标签: python python-2.7 primes sieve-of-eratosthenes

为什么第一个比第二个快得多?我知道存储素数为1和0更简单,但速度增加是荒谬的。最后,它仍然会列出200万个项目的长度,如何在1s中进行编译甚至远程可能?

def prime_sieve(limit):
    primes = [1 for x in xrange(limit)]
    primes[0] = 0
    primes[1] = 0
    imax = int(math.sqrt(limit) + 1)

    i = 2
    while (i < imax):
        j = i + i
        while j < limit:
            primes[j] = 0
            j += i
        while True:
            i += 1
            if primes[i] == 1:
                break
    return primes

s = prime_sieve(2000000)
print(sum(i for i in xrange(len(s)) if s[i] == 1))
-----------------------------------------------------------
def sieve(max):
    primes = range(2, max+1)
    for i in primes:
        j = 2
        while i * j <= primes[-1]:
            if i * j in primes:
                primes.remove(i*j)
                j += 1
    return primes

count = 0
for x in sieve(2000000):
    count += x
print count

1 个答案:

答案 0 :(得分:6)

因为当你删除东西时,你不能再使用direct addressing了。直接寻址是Eratosthenes速度筛选的关键(类似于integer sorting的速度优势,而不是基于比较的排序)。

在您的第一个代码中,primes[j] = 0是一个O(1)操作。但在第二步中,primes.remove(i*j)是O(n)操作(根据this)。

您还开始在i而不是2*i列举i^2的倍数。与上述相比,这不是一个问题。

要正确比较算法速度,始终比较empirical orders of growth 。以下是the results

# First code:
# --i+i--                                 # --i*i--
#   N       n    time-space   ~ n^        #    N     n     time-space   ~ n^
#  10k     1229  0.02s-7.9M               #
#  2mln  148933  1.13s-7.9M               #  2mln  148933  1.12s-7.9M  
#  4mln  283146  2.30s-7.9M  n^1.11       #  4mln  283146  2.25s-7.9M  n^1.09
#  8mln  539777  4.58s-7.9M  n^1.07       #  8mln  539777  4.38s-7.9M  n^1.03
# 16mln 1031130  9.12s-7.9M  n^1.06       # 16mln 1031130  8.82s-7.9M  n^1.08

# Second code:
# --j=2--                                 # --j=i--
#   5k      669  0.35s-7.9M               #   5k      669  0.28s-7.9M
#  10k     1229  1.37s-7.9M  n^2.24       #  10k     1229  1.16s-7.9M  n^2.34
#  20k     2262  5.21s-7.9M  n^2.19       #  20k     2262  4.66s-7.9M  n^2.28
#  30k     3245 11.76s-7.9M  n^2.26       #  30k     3245 11.24s-7.9M  n^2.44

N是上限,n - 低于它的素数。指数当然是近似的,它们的增量不是衡量的,但它们确实给了我们一般的图景。二次(或更差)算法肯定与线性算法有很大不同。