标签: apache-spark pyspark
我有以下工作流程。工作流程包含三个任务, 任务1:联接表,表1,表2 任务2:应用机器学习算法,表4 Task3:联接表,Task1的输出,表3。
任务3的输入取决于任务1的输出。
如何控制Apache Spark中的顺序任务? Apache Spark是否会在内部了解作业之间的相互依赖性并调整执行?