如何使Dask一次处理更少的分区/文件?

时间:2019-06-05 01:54:41

标签: python dask

我正在尝试使用to_parquet,但是由于内存错误,它使我的系统崩溃。我发现它正在尝试一次保存100-300个分区。

是否可以某种方式指定我一次要处理较少的分区,以防止由于耗尽所有RAM而导致崩溃?

1 个答案:

答案 0 :(得分:1)

Dask一次将使用您指定的线程数。这些任务可能是“处理中”,但这仅意味着它们已发送给工作人员,该工作人员在有备用线程时将对其进行处理。

  

我正在尝试使用to_parquet,但是由于内存错误,它使我的系统崩溃。

但是,分区仍然足够大,以至于无法一次容纳多个分区。在这种情况下,您可能希望选择较小的分区大小。有关更多信息,请参见https://docs.dask.org/en/latest/best-practices.html#avoid-very-large-partitions