什么时候用Dask代替熊猫?

时间:2019-07-23 20:16:15

标签: dask

我的任务涉及操纵大型数据集(> 20G)。我可以访问服务器,因此可以潜在地使用多个内核和大内存。

正如Dask的best practice所建议的那样,如果数据适合RAM,直接使用熊猫会更有效。由于我在服务器上,因此可以请求64G并使用熊猫来完成所有工作。但是,如果我理解正确,pandas仅使用一个线程,因此它无法利用所有内核。我在互联网上找到的有关并行化大熊猫的大多数教程都提到了Dask。

现在我很困惑。在这种情况下,我应该使用Dask吗?

0 个答案:

没有答案