使用chr()时的python内存分配

时间:2014-08-17 21:28:36

标签: python

我是python的新手,我希望有一个包含2个元素的列表,第一个是0到20亿之间的整数,另一个是0到10之间的数字。我有大量的这些列表(数十亿美元)。

假设我使用chr()函数为列表添加第二个参数。例如:

first_number = 123456678
second_number = chr(1)
mylist = [first_number,second_number]

在这种情况下,python如何分配内存?它会假设第二个参数是一个char并给它(1个字节+开销)还是假设第二个参数是一个字符串?如果它认为它是一个字符串,那么我可以用任何方式定义和强制执行某些内容作为字符,或者使它更具有内存效率吗?

编辑 - >添加了一些有关我为什么需要这种数据结构的信息

以下是有关我想要做的更多信息:

我有一个稀疏加权图,有20亿条边和2500万个节点。为了表示这个图,我试图创建一个字典(因为我需要快速查找),其中键是节点(作为整数)。这些节点由0到20亿之间的数字表示(这与边数之间没有关系)。边缘表示如下:对于每个节点(或字典中的键),我保留一个列表列表。列表列表中的每个元素都是我上面解释过的列表。第一个表示另一个节点,第二个参数表示键和第一个参数之间的边的权重。例如,对于包含5个节点的图形,如果我有类似

的图形
 {1: [[2, 1], [3, 1], [4, 2], [5, 1]], 2: [[5, 1]], 3: [[5, 2]], 4: [[6, 1]], 5: [[6, 1]]}

这意味着节点1有4条边:一条进入节点2,权重为1,一条进入节点3,权重为1,一条进入节点4,权重为2,等等。

我希望通过使边缘的第二个参数变小来确定我是否能够提高内存效率。

1 个答案:

答案 0 :(得分:2)

使用单个字符串将占用与小整数相同的内存量,因为CPython只会为每个值创建一个对象,并且每次需要该值的字符串或整数时都使用该对象。使用字符串会占用更多的空间,但它并不重要。

但是让我们回答你真正的问题,你如何减少Python程序使用的内存量?首先,我将计算您要创建的对象将使用多少内存。我使用64位版本的Python 2.7来获取我的数字,但其他64位版本的Python应该是相似的。

首先,您只有一个dict对象,但它有2500万个节点。 Python将使用2 ^ 26个散列桶用于此大小的dict,每个桶为24个字节。这个dict本身大约需要1.5 GB。

dict将拥有2500万个密钥,所有密钥都是int个,每个密钥都是24个字节。对于代表节点的所有整数,总共大约570 MB。它还将有2500万list个对象作为值。每个列表将占用列表中每个元素72个字节加8个字节。这些列表总共有20亿个元素,因此它们总共需要16.6 GB。

这20亿个列表元素中的每一个都将引用另一个list个对象,它是两个元素的长度。这高达164 GB。两个元素列表中的每一个都将引用两个不同的int对象。现在好消息,虽然看起来总共有大约40亿个整数对象,但它实际上只有20亿个不同的整数对象。对于第二个元素中使用的每个小整数值,只会创建一个对象。这样,第一个元素引用的整数对象总共使用了44.7 GB的内存。

在您计划实施数据结构时,至少需要227 GB的内存。回过头来看看这个列表,我将解释为什么它可能会减少你需要更实际的记忆。

表示两个元素边缘列表中的节点的int对象使用的44.7 GB内存是最容易处理的。由于只有2500万个节点,因此您不需要20亿个不同的对象,每个节点值只需要一个。此外,由于您已经将节点值用作键,因此您可以重复使用这些对象。因此,44.7 GB就在那里,并且根据您构建数据结构的方式,可能不需要花费太多精力来确保不创建任何还原子节点值对象。这使总数降至183 GB。

接下来,我们可以处理所有两个元素边list对象所需的164 GB。您可以共享恰好具有相同节点值和权重的列表对象,但您可以做得更好。通过展平列表列表来消除所有边缘列表。您必须对正确的元素进行一些算术访问,但除非您拥有一个拥有大量内存的系统,否则您将不得不做出妥协。用作dict值的list对象的长度必须加倍,将其总大小从16.1 GB增加到31.5 GB。这样可以使您的净节省额减少149 GB,使总数降至33.5 GB。

比这更远更棘手。一种可能性是使用数组。与列表不同,它们的元素不引用其他对象,该值存储在每个元素中。 array.array对象的长度为56个字节加上元素的大小,在本例中为32位整数。这相当于16.2 GB,净节省15.3 GB。总数现在只有18.3 GB。

通过利用您的权重是适合单字节字符的小整数这一事实,可以挤出更多空间。为每个节点创建两个array.array个对象,一个用于节点值的32位整数,另一个用于权重的8位整数。因为现在有两个数组对象,所以使用tuple对象来保存该对。所有这些对象的总大小为13.6 GB。单个阵列不是很大的节省,但现在你不需要任何算术来访问元素,你只需要切换索引它们的方式。总数低至15.66 GB。

最后,我能想到的最后一件事就是只保留两个array.array对象。然后,dict值变为引用两个tuple对象的int个对象。第一个是两个数组的索引,第二个是长度。这种表示占用了11.6 GB的内存,另一个小的净减少,总数变为13.6 GB。

最终总计13.6 GB应该可以在没有太多交换的16 GB内存的机器上运行,但它不会为其他任何东西留下很大空间。