应用错误收集

如何在多台机器上运行dask？

时间：2016-09-11 18:38:47

标签： dask

我最近找到了Dask。我有关于Dask Dataframe和其他数据结构的非常基本的问题。

Dask Dataframe是不可变数据类型吗？
Dask数组和Dataframe是否是惰性数据结构？

我不知道是否在我的情况下使用dask或spark或pandas。我有200 GB的数据要计算。使用普通python程序计算操作花了9个小时。但是利用16核处理器可以在较短的时间内并行处理。如果我在pandas中拆分数据帧，我需要担心计算的可交换和关联属性。另一方面，我可以使用独立的spark集群来分割数据并并行运行。

我是否需要在Dask中设置任何群集，就像Spark一样？如何在我自己的计算节点中运行Dask数据帧？ Dask是否需要主从设置？

我是大熊猫的粉丝，所以我正在寻找类似于熊猫的解决方案。

1 个答案:

答案 0 :(得分：4)

这里似乎有几个问题

问：Dask.dataframes是不可变的吗？

不严格。它们支持列分配。一般来说，虽然您已经纠正了Pandas的大多数变异操作都不受支持

问：Dask.dataframe和Dask.array是否懒惰？

是

问：我是否需要设置群集？

不，您可以选择在群集或单台计算机上运行Dask。

问：如果我想使用群集，我该怎么办？

请参阅Dask.distributed和特别是setup docs的文档

问：我应该使用Dask，Spark还是Pandas？

这个问题过于宽泛，取决于具体情况