Python json内存臃肿

时间:2011-06-30 14:39:56

标签: python json garbage-collection

import json
import time
from itertools import count

def keygen(size):
    for i in count(1):
        s = str(i)
        yield '0' * (size - len(s)) + str(s)

def jsontest(num):
    keys = keygen(20)
    kvjson = json.dumps(dict((keys.next(), '0' * 200) for i in range(num)))
    kvpairs = json.loads(kvjson)
    del kvpairs # Not required. Just to check if it makes any difference                            
    print 'load completed'

jsontest(500000)

while 1:
    time.sleep(1)

Linux top 表示在'jsontest'函数完成后,python进程保存~450Mb的RAM。如果省略对“ json.loads ”的调用,则不会发现此问题。执行此功能后, gc.collect 会释放内存

看起来内存没有保存在任何缓存或python的内部内存分配器中,因为对gc.collect的显式调用正在释放内存。

是否发生这种情况是因为从未达到垃圾收集的门槛(700,10,10)?

我确实在 jsontest 之后添加了一些代码来模拟阈值。但它没有帮助。

1 个答案:

答案 0 :(得分:3)

将它放在程序的顶部

import gc
gc.set_debug(gc.DEBUG_STATS)

只要有集合,你就会得到打印输出。您将看到在示例代码中,jsontest完成后没有集合,直到程​​序退出。

你可以把

print gc.get_count()

查看当前的计数。第一个数字是自上一次收集第0代以来分配超过解除分配的数量;第二个(相应的第三个)是自上一次收集第1代(相应的2)以来收集第0代(相应的1)的次数。如果您在jsontest完成后立即打印这些内容,您将看到计数为(548, 6, 0)或类似的内容(毫无疑问,这会根据Python版本而有所不同)。因此没有达到门槛,也没有收集。

这是基于阈值的垃圾收集调度的典型行为。如果需要及时将空闲内存返回到操作系统,则需要将基于阈值的调度与基于时间的调度相结合(即,自上次收集后经过一定时间后请求另一个集合,即使没有达到阈值。)