我一直在使用dask与jupyter进行自定义ETL作业(就像魅力一样)。
我的大多数管道只是filter
- > map
- > foldby
- > map
,我发现第二个map
操作(在folby
之后)按顺序执行(参见下面的散景图)。
代码段:
(
db
.read_text(path, storage_options=credentials)
.filter(predicate)
.map(transform)
.foldby(key, binop, initial, combine, initial)
.map(transform2)
)
这是正常的吗?我不明白为什么.map(transform2)
操作需要按顺序执行。
答案 0 :(得分:1)
foldby的输出是一个包含单个分区的包。你可以考虑在折叠之后repartition
将你的行李再次分开。