Question

我一直在使用dask与jupyter进行自定义ETL作业（就像魅力一样）。

我的大多数管道只是filter - ＆gt; map - ＆gt; foldby - ＆gt; map，我发现第二个map操作（在folby之后）按顺序执行（参见下面的散景图）。

代码段：

(
    db
    .read_text(path, storage_options=credentials)
    .filter(predicate)
    .map(transform)
    .foldby(key, binop, initial, combine, initial)
    .map(transform2)
)

这是正常的吗？我不明白为什么.map(transform2)操作需要按顺序执行。

Answer 1

foldby的输出是一个包含单个分区的包。你可以考虑在折叠之后repartition将你的行李再次分开。

Daked map在foldby之后变为连续的

1 个答案: