我想使用已知的分区设置dask
数据框(from_delayed
)的索引。但是,dask抱怨说这些分区必须是唯一的。这种约束给我带来了麻烦,因为分区大小约为5GB,这对我来说有点太多了。
有没有办法解决这个约束或者为某些操作放松它?
答案 0 :(得分:0)
您应该将分区视为优化,这允许dask知道某些操作在哪个分区中需要哪些数据(groupby,获取特定索引行等)。
如果您的数据的组织方式不是索引上的分区是唯一的,那么您有一个简单的选择:根本不提供分区。那么你将失去那些不适合你的情况的某些优化。或者,您可以决定重新组织数据,无论是在数据内还是在将数据传递给dask之前。