应用错误收集

我正在解决一个问题，该问题涉及在现代多CPU本地或云系统上使用最新的Python版本（3.7+）处理和修改巨大的（千兆字节）共享数组。像numpy而不是pandas这样的常见加速措施效果有限，甚至会造成不稳定的影响（numba）。

到目前为止，最有效的方法是对经过仔细预处理的数据使用multiprocessing与pool.imap进行调用。实际上，此方法与共享阵列方案不同，但是使用基于管理器的数据共享的任何尝试都会导致减速。另外，ray project可能由于大量内存需求而被应用了否定结果。

我有什么方法可以同时提高效率和内存使用率？