为什么dask分区必须是唯一的?

时间:2018-04-18 17:06:08

标签: dask

我想使用已知的分区设置dask数据框(from_delayed)的索引。但是,dask抱怨说这些分区必须是唯一的。这种约束给我带来了麻烦,因为分区大小约为5GB,这对我来说有点太多了。

有没有办法解决这个约束或者为某些操作放松它?

1 个答案:

答案 0 :(得分:0)

您应该将分区视为优化,这允许dask知道某些操作在哪个分区中需要哪些数据(groupby,获取特定索引行等)。

如果您的数据的组织方式不是索引上的分区是唯一的,那么您有一个简单的选择:根本不提供分区。那么你将失去那些不适合你的情况的某些优化。或者,您可以决定重新组织数据,无论是在数据内还是在将数据传递给dask之前。