Question

我最近在处理的一个代码被发现使用了大约200MB个内存来运行，而且我很难理解它为什么需要这么多。

基本上它将一个文本文件映射到一个列表中，其中文件中的每个字符都是它自己的列表，包含该字符以及它到目前为止显示的频率（从零开始）作为它的两个项目。

因此'abbac...'将为[['a','0'],['b','0'],['b','1'],['a','1'],['c','0'],...]

对于长度为100万个字符的文本文件，它使用了200MB。

这是合理的还是我的代码正在做的其他事情？如果它是合理的，是不是因为列表数量很多？ [a,0,b,0,b,1,a,1,c,0...]会占用更少的空间吗？

Answer 1

如果您不需要列表本身，那么我完全赞同@ Lattyware使用生成器的解决方案。

但是，如果这不是一个选项，那么你可以通过仅存储文件中每个字符的位置来压缩列表中的数据而不会丢失信息。

import random
import string

def track_char(s):
    # Make sure all characters have the same case
    s = s.lower()
    d = dict((k, []) for k in set(s))
    for position, char in enumerate(s):
         d[char].append(position)
    return d

st = ''.join(random.choice(string.ascii_uppercase) for _ in range(50000))
d = track_char(st)

len(d["a"])

# Total number of occurrences of character 2
for char, vals in d.items():
    if 2 in vals:
         print("Character %s has %s occurrences" % (char,len(d[char]))
Character C has 1878 occurrences

# Number of occurrences of character 2 so far
for char, vals in d.items():
    if 2 in vals:
        print("Character %s has %s occurrences so far" % (char, len([x for x in d[char] if x <= 2))
Character C has 1 occurrences so far

这样，每次出现时都不需要复制字符串，并保留所有出现的信息。

要比较原始列表或此方法的对象大小，这是一个测试

import random
import string
from sys import getsizeof

# random generation of a string with 50k characters
st = ''.join(random.choice(string.ascii_uppercase) for _ in range(50000))

# Function that returns the original list for this string
def original_track(s):
    l = []
    for position, char in enumerate(s):
        l.append([char, position])
    return l

# Testing sizes
original_list = original_track(st)
dict_format = track_char(st)

getsizeof(original_list)
406496
getsizeof(dict_format)
1632

如您所见，dict_format的大小约为250倍。但是，在较大的字符串中，这种尺寸差异应该更明显。

Answer 2

当谈到内存使用和列表时，减少内存使用的最佳方法之一是完全避免列表 - Python以生成器的形式支持迭代器。如果你可以生成一个生成器而不是构建一个列表，你应该可以用很少的内存使用来做这样的事情。当然，这取决于你之后对数据做了什么（比如说你把这个结构写到文件中，你可以一块一块地做，而不是一次性存储整个文件）。

from collections import Counter

def charactersWithCounts():
    seen = Counter()
    for character in data:
        yield (character, seen[character])
        seen[character] += 1

python列表列表的内存消耗

2 个答案: