我正在解决一个问题,该问题涉及在现代多CPU本地或云系统上使用最新的Python版本(3.7+)处理和修改巨大的(千兆字节)共享数组。像numpy而不是pandas这样的常见加速措施效果有限,甚至会造成不稳定的影响(numba)。
到目前为止,最有效的方法是对经过仔细预处理的数据使用multiprocessing与pool.imap进行调用。实际上,此方法与共享阵列方案不同,但是使用基于管理器的数据共享的任何尝试都会导致减速。另外,ray project可能由于大量内存需求而被应用了否定结果。
我有什么方法可以同时提高效率和内存使用率?