任何人都可以告诉我哪个dask.dataframe在内存效率上胜过熊猫?

时间:2018-05-03 07:52:05

标签: python-3.x pandas dask

在内存RAM效率方面,谁更好?

什么dask做什么来减少/压缩大数据以在小RAM上运行?

1 个答案:

答案 0 :(得分:1)

在数据集小于RAM的单台机器上运行时,pandas / numpy可以帮助您正常运行。 Dask是一个分布式任务分发包,基本上意味着您可以在单台计算机上懒惰地读取数据集。例如,.csvs的文件夹,它们太大(60 GB)可以加载到内存中。可以加载dask,因此你只在需要时才使用数据,通过调用dask .dataframe.compute()。
基本上,从使用pandas开始 - 如果你的代码开始抛出MemoryErrors,你可以使用dask。

来源: http://dask.pydata.org/en/latest/why.html