kedro - 使用数据并行化运行管道 - Thinbug

使用数据并行化运行管道

时间：2019-11-19 16:26:38

标签： kedro

我一直在运行kedro教程（您好，世界和太空飞行），我想知道是否可以轻松地使用Kedro进行数据并行化。想象一下，我有一个节点需要在数百万个文件中执行的情况。

我似乎有kedro run -p选项，但这仅执行任务并行化（如此处https://kedro.readthedocs.io/en/latest/03_tutorial/04_create_pipelines.html所述）。

感谢您的任何反馈

1 个答案:

答案 0 :(得分：2)

Kedro有许多内置的DataSet类。对于IO并行化，有SparkDataSet将IO并行化委派给PySpark https://kedro.readthedocs.io/en/latest/04_user_guide/09_pyspark.html#creating-a-sparkdataset

另一个数据集是DaskDataSet，但是在此PR https://github.com/quantumblacklabs/kedro/pull/97中仍然是WIP（如果要使用Dask，可以查看此PR和create your own custom dataset）