我最近找到了Dask。我有关于Dask Dataframe和其他数据结构的非常基本的问题。
我不知道是否在我的情况下使用dask或spark或pandas。我有200 GB的数据要计算。使用普通python程序计算操作花了9个小时。但是利用16核处理器可以在较短的时间内并行处理。如果我在pandas中拆分数据帧,我需要担心计算的可交换和关联属性。另一方面,我可以使用独立的spark集群来分割数据并并行运行。
我是否需要在Dask中设置任何群集,就像Spark一样? 如何在我自己的计算节点中运行Dask数据帧? Dask是否需要主从设置?
我是大熊猫的粉丝,所以我正在寻找类似于熊猫的解决方案。
答案 0 :(得分:4)
这里似乎有几个问题
不严格。它们支持列分配。一般来说,虽然您已经纠正了Pandas的大多数变异操作都不受支持
是
不,您可以选择在群集或单台计算机上运行Dask。
请参阅Dask.distributed和特别是setup docs的文档
这个问题过于宽泛,取决于具体情况