Airflow如何连接到Spark,是否可以在Airflow中为用户设置不同的访问权限?

时间:2017-05-18 16:02:24

标签: airflow apache-airflow airflow-scheduler

嗨,我还是Airflow的新手。我想知道Airflow如何连接到Spark? 我有一个服务器,它具有不同的帐户(或配置文件)来访问Spark群集。我想知道Airflow是否有固定的轮廓来连接火花?或者它遵循用户配置文件?

此外,是否可以在Airflow中为用户设置不同的访问权限? 例如,有权访问Spark(或hdfs)中的位置A的用户A只能运行与位置A相关的任务。(因此无法从位置B运行任何作业)

提前致谢。

1 个答案:

答案 0 :(得分:0)

您可以在Airflow repo的conrtib文件夹中查看社区贡献的SparkSubmitOperator。基本上,这个运算符通过python运行spark-submit子进程并等待它的完成。自上一次稳定版本(1.8.1)以来,该运算符得到了显着改进。如果您已经安装了火花并且不希望气流控制火花作业的运行位置,那么这种方法非常有效。

用户权限问题更复杂。其中一种方法是,您可以通过修改SparkSubmitOperator来设置子进程的环境参数,并将此参数作为此操作符的(额外)输入。