使用dask对非常大的数据进行排序?

时间:2018-01-16 18:36:12

标签: dask

我需要对一个远远超过我正在使用的机器的物理内存大小的数据表进行排序。 Pandas无法处理它,因为它需要将整个数据读入内存。 dask可以处理吗?

谢谢!

1 个答案:

答案 0 :(得分:1)

是的,通过在您要排序的列上调用set_index。在一台机器上,它可以智能地使用您的硬盘驱动器以获得多余的空间。