Dask:有没有办法从任务中获取每个分区的ID,所以我可以在任务f中做一些不同的事情

时间:2019-09-09 16:09:47

标签: dask dask-distributed

我正在尝试将dask用于我拥有的一组文本数据。文本数据将被分为4部分。我想从任务中获取分区ID,以便根据分区进行一些稍有不同的操作。我想知道是否有一种方法(如下面的伪代码所示)。

def task(df, partition_id):
    if partition_id == 1:
        #do something
    elif partition_id == 2:
        #do something else
    elif partition_id == 3:
        #do something else
    else:
        #do something else.



1 个答案:

答案 0 :(得分:0)

您可能会考虑使用.to_delayed函数来找出一大堆Dask Delayed对象。然后,您可以单独对它们执行任何操作,然后使用dd.from_delayed将其转换回Dask数据框。

这是一个可能有用的文档页面:https://docs.dask.org/en/latest/delayed-collections.html