Question

我有一个较大的数据帧（约18万行）

df.compute()

在分布式模式下以本地模式在桌面上运行dask时挂起 AWS m5.12xlarge（98个内核）。所有工人几乎都闲着但是

df.head(df.shape[0].compute(), -1)

快速完成，并充分利用了可用内核。

从逻辑上讲，上述内容应等效。是什么导致差异？我应该在第一个版本中传递一些参数给compute来加快速度吗？

Answer 1

当您致电.compute()时，您需要在本地流程中将所有结果作为pandas数据框。如果结果很大，则可能不合适。您是否需要本地整个结果？如果不是，那么也许您想要.persist()代替？