标签: dask
我的任务涉及操纵大型数据集(> 20G)。我可以访问服务器,因此可以潜在地使用多个内核和大内存。
正如Dask的best practice所建议的那样,如果数据适合RAM,直接使用熊猫会更有效。由于我在服务器上,因此可以请求64G并使用熊猫来完成所有工作。但是,如果我理解正确,pandas仅使用一个线程,因此它无法利用所有内核。我在互联网上找到的有关并行化大熊猫的大多数教程都提到了Dask。
现在我很困惑。在这种情况下,我应该使用Dask吗?