我有一个dask数组X,大约是。 3500 x700000。每一行都有缺失的值,我需要根据该行的平均值来估算。
当前,此数组存储为dask数组,并且我具有可以执行插补的延迟函数。但是,当我使用计算方法时,内存似乎已满,因为它似乎正试图给我留下一个numpy数组。
有没有一种方法可以将该插补应用于数组,从而使插补数组最终成为内存不足的数组?
答案 0 :(得分:1)
当您将延迟函数应用于dask数组时,必须将您的数组转换为单个numpy数组。参见http://dask.pydata.org/en/latest/delayed-best-practices.html#don-t-call-dask-delayed-on-other-dask-collections
您可能要考虑对数组进行分块,以便将行分成单个块,然后使用map_blocks
。