我正在尝试将dask
用于我拥有的一组文本数据。文本数据将被分为4部分。我想从任务中获取分区ID,以便根据分区进行一些稍有不同的操作。我想知道是否有一种方法(如下面的伪代码所示)。
def task(df, partition_id):
if partition_id == 1:
#do something
elif partition_id == 2:
#do something else
elif partition_id == 3:
#do something else
else:
#do something else.
答案 0 :(得分:0)
您可能会考虑使用.to_delayed
函数来找出一大堆Dask Delayed对象。然后,您可以单独对它们执行任何操作,然后使用dd.from_delayed
将其转换回Dask数据框。
这是一个可能有用的文档页面:https://docs.dask.org/en/latest/delayed-collections.html