Airflow DataProcPySparkOperator不考虑全局区域以外的群集

时间:2017-09-06 06:01:08

标签: python airflow google-cloud-dataproc

我正在使用DataProcPySparkOperator执行某些操作。此运算符仅将集群名称作为参数,没有指定区域的选项,默认情况下它会将集群视为全局区域。 对于具有非全局区域的群集,会发生以下错误:

  

googleapiclient.errors.HttpError:https://dataproc.googleapis.com/v1/projects//regions/global/jobs:submit?alt=json返回“没有项目ID的当前群集”,名称为''`

我是否遗漏了这些运营商的任何内容或其正当限制?

2 个答案:

答案 0 :(得分:3)

这些DataProc {PySpark | Spark | Hive | Hadoop | ..}操作员今天根本不支持区域参数,已创建气流issue,我将在接下来的几天内提交修复。

答案 1 :(得分:1)

使用运行Airflow 1.9的Google Composer,我们遇到了同样的问题。我们升级到Airflow 1.10,从而解决了该问题。 Google刚刚发布了它。现在,当我运行操作员时,它可以看到群集-它看起来在正确的区域。以前,它总是在全球范围内寻找。