Question

我有一个Python2.7应用程序，它使用了大量dict个对象，这些对象大多包含键和值的字符串。

有时候不再需要那些dicts和字符串，我想从内存中删除它们。

我尝试了不同的内容，del dict[key]，del dict等。但应用仍然使用相同数量的内存。

下面是一个我希望收取内存的例子。但事实并非如此:(

import gc
import resource

def mem():
    print('Memory usage         : % 2.2f MB' % round(
        resource.getrusage(resource.RUSAGE_SELF).ru_maxrss/1024.0/1024.0,1)
    )

mem()

print('...creating list of dicts...')
n = 10000
l = []
for i in xrange(n):
    a = 1000*'a'
    b = 1000*'b'
    l.append({ 'a' : a, 'b' : b })

mem()

print('...deleting list items...')

for i in xrange(n):
    l.pop(0)

mem()

print('GC collected objects : %d' % gc.collect())

mem()

输出：

Memory usage         :  4.30 MB
...creating list of dicts...
Memory usage         :  36.70 MB
...deleting list items...
Memory usage         :  36.70 MB
GC collected objects : 0
Memory usage         :  36.70 MB

我希望在这里可以“收集”某些对象并释放一些内存。

我做错了吗？删除未使用对象的任何其他方法，或至少找到意外使用对象的位置。

Answer 1

Frederick Lundh explains，

如果您创建一个大对象并再次删除它，Python可能已经发布了内存，但涉及的内存分配器不一定返回内存到操作系统，所以看起来好像Python进程使用了比实际使用的虚拟内存更多。

and Alex Martelli writes：

唯一真正可靠的方法来确保大而且暂时使用内存在完成后将所有资源返回给系统，是在子进程中发生这种用法，这会占用大量内存然后终止。

因此，您可以使用multiprocessing生成子进程，执行内存占用计算，然后确保在子进程终止时释放内存：

import multiprocessing as mp
import resource

def mem():
    print('Memory usage         : % 2.2f MB' % round(
        resource.getrusage(resource.RUSAGE_SELF).ru_maxrss/1024.0,1)
    )

mem()

def memoryhog():
    print('...creating list of dicts...')
    n = 10**5
    l = []
    for i in xrange(n):
        a = 1000*'a'
        b = 1000*'b'
        l.append({ 'a' : a, 'b' : b })
    mem()

proc = mp.Process(target=memoryhog)
proc.start()
proc.join()

mem()

产量

Memory usage         :  5.80 MB
...creating list of dicts...
Memory usage         :  234.20 MB
Memory usage         :  5.90 MB

Answer 2

使用多处理和一个名为Ray的库可能会有些有用，该库使用共享内存在进程之间执行多gb数据共享。这种方法很容易产生辅助进程，并且仍然可以从父进程轻松快捷地访问相同的对象。

在Python中强制垃圾收集以释放内存

2 个答案: