python内存使用dict和变量大数据集

时间:2015-05-10 08:41:52

标签: python python-3.4

所以,我在Python 3.4中制作游戏。在游戏中我需要跟踪地图。它是一个连接房间的地图,从(0,0)开始并在每个方向继续,以过滤随机方式生成(下一个位置的正确匹配用于随机列表选择)。

我有几种类型的房间,它们有一个名字和门列表:

RoomType = namedtuple('Room','Type,EntranceLst')
typeA = RoomType("A",["Bottom"])
...

对于目前的地图,我保留了一个位置和房间类型的字典:

currentRoomType = typeA
currentRoomPos = (0,0)
navMap = {currentRoomPos: currentRoomType}

我有循环,生成9.000.000个房间,以测试内存使用情况。 当我运行它时,我得到大约600和800Mb。 我想知道是否有办法优化它。

我试过而不是做

navMap = {currentRoomPos: currentRoomType}

我愿意

navMap = {currentRoomPos: "A"}

但这并没有真正改变用法。

现在我想知道我是否可以 - 并且应该 - 保留所有类型的列表,并且对于每种类型保持它发生的位置。我不知道它是否会对python管理变量的方式产生影响。

这几乎是一个思想实验,但如果有任何有用的东西,我可能会实现它。

1 个答案:

答案 0 :(得分:4)

您可以使用sys.getsizeof(object)来获取Python对象的大小。但是,在容器上调用sys.getsizeof时必须小心:它只提供容器的大小而不是内容 - 请参阅this配方,了解如何获取总容量的大小容器,包括内容。在这种情况下,我们不需要非常深入:我们可以手动添加容器的大小和内容的大小。

相关类型的大小为:

# room type size
>>> sys.getsizeof(RoomType("A",["Bottom"])) + sys.getsizeof("A") + sys.getsizeof(["Bottom"]) + sys.getsizeof("Bottom")
233

# position size
>>> sys.getsizeof((0,0)) +  2*sys.getsizeof(0)
120

# One character size
>>> sys.getsizeof("A")
38

假设您有N个房间,让我们看一下不同的选项:

  1. 来自position -> room_type的词典。这涉及在内存中保留N*(size(position) + size(room_type)) = 353 N个字节。
  2. 来自position -> 1-character string的词典。这涉及在内存中保留N*158个字节。
  3. 来自type -> set of positions的词典。这涉及保留N*120字节加上存储字典密钥的微小开销。
  4. 就内存使用而言,第三种选择显然更好。但是,通常情况下,您需要CPU内存权衡。值得简单思考一下您可能要执行的查询的计算复杂性。要查找给定其位置的房间类型,请使用上述三个选项中的每一个:

    1. 在字典中查找位置。这是一个O(1)查找,因此您将始终拥有相同的运行时间(大约),与房间数量无关(对于大量房间而言)。
    2. 相同的
    3. 查看每种类型,并针对每种类型询问该位置是否在该类型的位置集中。这是一个O(ntypes)查找,也就是说,它所花费的时间与您拥有的类型数量成正比。请注意,如果您已经使用了列表而不是用于存储给定类型的房间的集合,则会增加到O(nrooms * ntypes),这会导致您的性能下降。
    4. 与往常一样,在优化时,考虑优化对内存使用和CPU时间的影响非常重要。这两者经常不一致。

      作为替代方案,如果您的地图足够矩形,您可以考虑将类型保留在二维numpy字符数组中。我相信这会更有效率。 numpy数组中的每个字符都是单个字节,因此内存使用量会少得多,并且CPU时间仍然是从房间位置到类型的O(1)查找:

      # Generate random 20 x 10 rectangular map
      >>> map = np.repeat('a', 100).reshape(20, 10)
      >>> map.nbytes
      200 # ie. 1 byte per character.
      

      一些额外的小规模优化:

      将房间类型编码为int而不是字符串。 Ints的大小为24字节,而单字符的字符串大小为38。

      将位置编码为单个整数,而不是元组。例如:

      # Random position
      xpos = 5
      ypos = 92
      
      # Encode the position as a single int, using high-order bits for x and low-order bits for y
      pos = 5*1000 + ypos
      
      # Recover the x and y values of the position.     
      xpos = pos / 1000
      ypos = pos % 1000
      

      请注意,这会影响可读性,因此如果您想要挤出最后一点性能,那么它只值得做。在实践中,您可能希望使用2的幂而不是10的幂作为分隔符(但是10的幂有助于调试和可读性)。请注意,这会使每个位置的字节数从120增加到24.如果确实沿着这条路线前进,请考虑使用__slots__定义Position类以告诉Python如何分配内存,并添加xpos和该类的ypos属性。您不希望使用pos / 1000pos % 1000语句来丢弃代码。