我已在服务器上安装了Airflow。我能够从Airflow服务器ping到hadoop集群。我想从气流服务器向hadoop集群提交一个火花作业。有人可以列出我需要为此做的步骤吗?我需要在气流服务器上安装Spark Client吗?
答案 0 :(得分:0)
Apache Livy可用于提交火花作业,请查看以下博客文章。Spark Job submission via Airflow Operators
答案 1 :(得分:0)
最简单的方法是在Airflow服务器与Hadoop集群(边缘节点)之间建立SSH连接。现在, 1.从Airflow UI(在“管理”选项卡下)创建SSH连接。 2.通过SSHHook在您的Airflow管道中使用上面创建的连接。 3.编写spark-submit命令。 4.在SSHOperator的构造函数中使用(2)和(3)的输出。