DataProcPySparkOperator集群区域和区域问题

时间:2018-05-02 11:56:18

标签: pyspark airflow

使用DataProcPySparkOperator的问题。以下是我在DAG中添加的任务:

run_pyspark_job= DataProcPySparkOperator(
    task_id='pyspark_operator_test',
    main='/root/airflow/dags/basic_eda.py',
    job_name='test_pyspark_job',
    cluster_name='test-cluster-20180502',
    gcp_conn_id='google_cloud_default',
    region='global',
    zone='us-central1-b'
)

获得以下错误:

  

googleapiclient.errors.HttpError:https://dataproc.googleapis.com/v1/projects/project_id/regions/global/jobs:submit?alt=json返回“未找到:群集项目/ project_id / regions / global / clusters / cluster-1”

它没有指向正确的群集

请建议我缺少什么?

1 个答案:

答案 0 :(得分:3)

Airflow 1.9中的参数已更改。要指定群集ID,使用的dataproc_cluster参数在1.9中已更改为cluster_name

因此,如果您使用的是apache-airflow< ='1.8.2',请使用dataproc_cluster指定cluster_id('test-cluster-20180502')。

检查:https://github.com/apache/incubator-airflow/blob/master/UPDATING.md#deprecated-features