我的工作流程由多个任务(顺序和并行)组成,范围从Hbase收集数据,并对这些数据执行各种机器学习算法,等等。
是否可以在Apache Spark中执行它们而不使用工作流管理器?我问的原因是我有一种算法来分批订购任务(可以一起运行的任务)。我可以直接将其提交给Spark吗?
答案 0 :(得分:0)
您可能正在寻找以下应用程序中的Spark作业调度:https://spark.apache.org/docs/latest/job-scheduling.html#scheduling-within-an-application。
遵循上述配置选项,您可以并行提交作业(触发作业执行,调用Spark动作)。您也可以在此处应用算法to order the tasks in batches
。
请记住,您的某些作业可能取决于并行运行的其他作业的结果。确保在代码中控制此类作业的顺序(Spark不会为您执行此类DAG)。