如何在不使用工作流管理器(例如Oozie,Airflow)的情况下在Apache Spark中执行工作流的顺序/并行任务?

时间:2019-10-23 09:35:06

标签: apache-spark pyspark

我的工作流程由多个任务(顺序和并行)组成,范围从Hbase收集数据,并对这些数据执行各种机器学习算法,等等。

是否可以在Apache Spark中执行它们而不使用工作流管理器?我问的原因是我有一种算法来分批订购任务(可以一起运行的任务)。我可以直接将其提交给Spark吗?

1 个答案:

答案 0 :(得分:0)

您可能正在寻找以下应用程序中的Spark作业调度:https://spark.apache.org/docs/latest/job-scheduling.html#scheduling-within-an-application

遵循上述配置选项,您可以并行提交作业(触发作业执行,调用Spark动作)。您也可以在此处应用算法to order the tasks in batches

请记住,您的某些作业可能取决于并行运行的其他作业的结果。确保在代码中控制此类作业的顺序(Spark不会为您执行此类DAG)。