如果集合不适合内存,dask.compute()
的替代方案是什么?某种内存映射?
我浏览了此documentation,但没有一眼看到。
答案 0 :(得分:0)
您是正确的,调用.compute()
通常会生成一个内存对象,例如必须容纳在内存中的NumPy数组或Pandas DataFrame。
通常这不是问题,因为许多分析的输出往往很小(例如,以点结尾的数据点),或者因为输出是有意存储的,例如{{1 }}。但是有时您确实想触发计算,但是将数据驻留在分布式内存中。在这种情况下,人们倾向于使用df.to_parquet('...')
方法而不是.persist()
。
有关更多信息,请参见persist API documentation。