应用错误收集

将对象存储在文件而不是内存中

时间：2016-06-16 05:50:38

标签： python memory memory-management genetic-programming

我已经用Python创建了一个基因编程系统，但是我遇到了与内存限制相关的麻烦。问题在于将我的人口中的所有个体存储在记忆中。目前，我将所有个体存储在内存中，然后重现下一代的群体，然后将其存储到内存中。这意味着我在内存中加载了两个人口。经过一些测试，我发现我很快就超过了Windows的默认2GB应用程序内存大小。

目前，我将整个人口的单个树写到一个文件中，然后我可以根据需要加载并重新创建人口。我一直在考虑的是，不是让所有个人都加载到内存中，而是通过从文件中提取个人来访问个人信息，而只是实例化那个单独的个体。根据我对Python的readline功能的理解，它应该一次只从文件加载一行，而不是整个文件。如果我这样做，我想我只能在记忆中存储我当前正在操纵的人。

我的问题是，这样做是否存在一个下划线问题，我现在还没有看到？我理解，因为我处理磁盘上的数据而不是内存中的数据，我的性能会受到影响，但对于这种情况，内存比速度更重要。另外，我不想增加分配给Python程序的2GB内存。

谢谢！

2 个答案:

答案 0 :(得分：2)

鉴于RAM限制，我将人口模型从世代改为 稳定状态 。

这个想法是迭代地培育一个或两个新的孩子，评估他们的适应性，然后将他们直接重新引入人群中，杀死一些先前存在的个体，为他们腾出空间。

稳态使用传统遗传算法的一半的内存，因为一次只有一个人口。

改变实施不应该太难，但你必须注意早熟收敛（即调整参数，如突变率，锦标赛大小......）。

岛屿模型 是另一种/另外一种可能性：人口被分成不同的子群体（demes）。 Demes派遣个人互相帮助传播新发现的空间适合区域的新闻。

通常它是异步机制，但您可以使用同步算法，逐个加载demes，大大减少所需的内存资源。< / p>

当然，您可以将人口编写到文件中，然后只需加载所需的个人。如果您选择这种方法，计算个体的哈希签名以优化识别/加载速度可能是个好主意。

无论如何，您应该考虑到，根据您的GP系统正在执行的任务，您可以注册大量的性能。

答案 1 :(得分：0)

请记住，如果你使用稳态，你需要有一些方法让Fittest个体交叉繁殖的概率高于不太适合的个体。

您可以考虑的其他几个选项是：

a）使用SQLLite。（https://docs.python.org/2/library/sqlite3.html）。这将具有使用数据库（可能更多）的所有性能优势以及使用文件的简单性和易用性。

b）存在混合非稳态模型，其允许保持大的，未评估的Polulation，大小M和＆＃34; Survivor Set＆＃34;适合的个体大小为N，其中M>＆gt; N. Population是解决方案对象的队列，但SurvivorSet是一个有限大小的Heap＆＃34; EvaluatedSolutions＆＃34; （用Fitness装饰的解决方案）。因此，您继续从常规群体中获取解决方案，对其进行评估，然后将它们放入EvaluatedSolution堆中（按适应性降序排序）并裁剪前N个元素。这样，你的记忆消耗量保持不变，但是你已经内置了精英的概念。这也可以做出很好的技巧，例如＆＃34;育种＆＃34;仅使用精英作为繁殖种群。