Dask就地替换大熊猫?

时间:2017-05-07 03:37:36

标签: dask

我想知道我是否可以使用dask而不是pandas。我可能遇到的问题是什么?

1)对于较小的数据集,我猜dask会比pandas慢。我很好,因为有时我不知道数据的大小,也不知道服务器配置。

2)我将不得不学习稍微不同的语法(例如计算)

我是否会遇到dask数据帧无法执行pandas数据帧的情况?

1 个答案:

答案 0 :(得分:4)

这是一个非常广泛的问题。一般来说,我建议参考dask.dataframe documentation

Dask.dataframe没有实现所有pandas。这包括以下几种操作:

  1. 变异操作
  2. 难以完全并行执行的操作,例如中位数(尽管通常存在近似解,例如近似分位数)
  3. 迭代数据帧的行
  4. API的小角落,没有人费心去复制。
  5. 但是,因为dask数据帧只是许多小型数据帧的集合,所以在简单的情况下,您通常可以解决其中一些限制。