在内存中不适合的集合上执行dacompute()

时间:2019-01-31 03:08:02

标签: python memory dask

如果集合不适合内存,dask.compute()的替代方案是什么?某种内存映射?

我浏览了此documentation,但没有一眼看到。

1 个答案:

答案 0 :(得分:0)

您是正确的,调用.compute()通常会生成一个内存对象,例如必须容纳在内存中的NumPy数组或Pandas DataFrame。

通常这不是问题,因为许多分析的输出往往很小(例如,以点结尾的数据点),或者因为输出是有意存储的,例如{{1 }}。但是有时您确实想触发计算,但是将数据驻留在分布式内存中。在这种情况下,人们倾向于使用df.to_parquet('...')方法而不是.persist()

有关更多信息,请参见persist API documentation