我正在尝试使用to_parquet
,但是由于内存错误,它使我的系统崩溃。我发现它正在尝试一次保存100-300个分区。
是否可以某种方式指定我一次要处理较少的分区,以防止由于耗尽所有RAM而导致崩溃?
答案 0 :(得分:1)
Dask一次将使用您指定的线程数。这些任务可能是“处理中”,但这仅意味着它们已发送给工作人员,该工作人员在有备用线程时将对其进行处理。
我正在尝试使用to_parquet,但是由于内存错误,它使我的系统崩溃。
但是,分区仍然足够大,以至于无法一次容纳多个分区。在这种情况下,您可能希望选择较小的分区大小。有关更多信息,请参见https://docs.dask.org/en/latest/best-practices.html#avoid-very-large-partitions。