数据:我有两个非常长的列表(每个最多500M元素),这些列表是由我的并行程序部分极密集使用(只读,无修改)。首先是字符串列表,第二个是整数列表。两个列表中的元素长度(字符串或列表)可能从少数(大多数情况)到几百或几千(罕见情况)的字母/整数不等。
在并行代码(子进程)中,列表用作只读数据。并行执行完成后,可以通过main-process将新元素添加(追加到列表)到列表中。
问题:问题是在流程之间共享此类数据的最佳方式是什么?以下是考虑的解决方案(我知道)。如果我错过了什么,请发表评论。
可能的解决方案:
- 来自multiprocessing module的数组。它是suggested,它可以与numpy数组结合使用。这个解决方案似乎是最合理的。但是在需要固定长度的元素时 - 这对我来说是一个真正的问题。我没有足够的RAM来将数组元素大小设置为可能出现的最长项目的长度。在这种方法中,我认为最有效的方法是将元素长度设置为某个合理的值(这将能够存储大多数条目),剩余的最长条目存储是具有足够大的元素长度的第二个数组。
- 主要进程的os.fork(数据部分中描述的列表)。它只是unix,但对我来说这不是问题。它应该受益于写时复制。但是两个字符串(第一个列表的元素)和列表(第二个列表的元素)都是对象和probably reference counting will cause that each time data will be copy
- redis(o其他可以在ram中存储数据的数据库)。我真的很担心performans
- 存储为mmap个对象。这给了我巨大的字符串式(和类文件)对象。搜索(迭代)它可能是我程序中最耗时的部分。
- 以原始形式存储在一个进程中,并使用队列/管道与其他进程通信。以前,当我使用multiprocess.pool.imap与进程之间的小chunksize通信杀死性能。因此,我认为这种解决方案不适用于真正的高流量。
醇>
因此,基于上述情况,在我看来,最合理的解决方案是使用Array和numpy(选项1)并尝试将每个列表拆分为几个具有不同元素长度的数组。有什么意见,建议吗?我错过了什么吗?