如何在多台机器上运行dask?

时间:2016-09-11 18:38:47

标签: dask

我最近找到了Dask。我有关于Dask Dataframe和其他数据结构的非常基本的问题。

  1. Dask Dataframe是不可变数据类型吗?
  2. Dask数组和Dataframe是否是惰性数据结构?
  3. 我不知道是否在我的情况下使用dask或spark或pandas。我有200 GB的数据要计算。使用普通python程序计算操作花了9个小时。但是利用16核处理器可以在较短的时间内并行处理。如果我在pandas中拆分数据帧,我需要担心计算的可交换和关联属性。另一方面,我可以使用独立的spark集群来分割数据并并行运行。

    我是否需要在Dask中设置任何群集,就像Spark一样? 如何在我自己的计算节点中运行Dask数据帧? Dask是否需要主从设置?

    我是大熊猫的粉丝,所以我正在寻找类似于熊猫的解决方案。

1 个答案:

答案 0 :(得分:4)

这里似乎有几个问题

问:Dask.dataframes是不可变的吗?

不严格。它们支持列分配。一般来说,虽然您已经纠正了Pandas的大多数变异操作都不受支持

问:Dask.dataframe和Dask.array是否懒惰?

问:我是否需要设置群集?

不,您可以选择在群集或单台计算机上运行Dask。

问:如果我想使用群集,我该怎么办?

请参阅Dask.distributed和特别是setup docs的文档

问:我应该使用Dask,Spark还是Pandas?

这个问题过于宽泛,取决于具体情况