在内存RAM效率方面,谁更好?
什么dask做什么来减少/压缩大数据以在小RAM上运行?
答案 0 :(得分:1)
在数据集小于RAM的单台机器上运行时,pandas / numpy可以帮助您正常运行。 Dask是一个分布式任务分发包,基本上意味着您可以在单台计算机上懒惰地读取数据集。例如,.csvs的文件夹,它们太大(60 GB)可以加载到内存中。可以加载dask,因此你只在需要时才使用数据,通过调用dask .dataframe.compute()。
基本上,从使用pandas开始 - 如果你的代码开始抛出MemoryErrors,你可以使用dask。