使用数据并行化运行管道

时间:2019-11-19 16:26:38

标签: kedro

我一直在运行kedro教程(您好,世界和太空飞行),我想知道是否可以轻松地使用Kedro进行数据并行化。 想象一下,我有一个节点需要在数百万个文件中执行的情况。

我似乎有kedro run -p选项,但这仅执行任务并行化(如此处https://kedro.readthedocs.io/en/latest/03_tutorial/04_create_pipelines.html所述)。

感谢您的任何反馈

1 个答案:

答案 0 :(得分:2)

Kedro有许多内置的DataSet类。对于IO并行化,有SparkDataSet将IO并行化委派给PySpark https://kedro.readthedocs.io/en/latest/04_user_guide/09_pyspark.html#creating-a-sparkdataset

另一个数据集是DaskDataSet,但是在此PR https://github.com/quantumblacklabs/kedro/pull/97中仍然是WIP(如果要使用Dask,可以查看此PR和create your own custom dataset