如何从Airflow服务器向hadoop集群提交Spark作业

时间:2019-12-26 01:31:37

标签: apache-spark airflow

我已在服务器上安装了Airflow。我能够从Airflow服务器ping到hadoop集群。我想从气流服务器向hadoop集群提交一个火花作业。有人可以列出我需要为此做的步骤吗?我需要在气流服务器上安装Spark Client吗?

2 个答案:

答案 0 :(得分:0)

Apache Livy可用于提交火花作业,请查看以下博客文章。Spark Job submission via Airflow Operators

答案 1 :(得分:0)

最简单的方法是在Airflow服务器与Hadoop集群(边缘节点)之间建立SSH连接。现在, 1.从Airflow UI(在“管理”选项卡下)创建SSH连接。 2.通过SSHHook在您的Airflow管道中使用上面创建的连接。 3.编写spark-submit命令。 4.在SSHOperator的构造函数中使用(2)和(3)的输出。