Daked map在foldby之后变为连续的

时间:2017-09-05 14:44:45

标签: dask

我一直在使用dask与jupyter进行自定义ETL作业(就像魅力一样)。

我的大多数管道只是filter - > map - > foldby - > map,我发现第二个map操作(在folby之后)按顺序执行(参见下面的散景图)。

代码段:

(
    db
    .read_text(path, storage_options=credentials)
    .filter(predicate)
    .map(transform)
    .foldby(key, binop, initial, combine, initial)
    .map(transform2)
)  

dask-profiler-bokeh-plot

这是正常的吗?我不明白为什么.map(transform2)操作需要按顺序执行。

1 个答案:

答案 0 :(得分:1)

foldby的输出是一个包含单个分区的包。你可以考虑在折叠之后repartition将你的行李再次分开。