使用DataProcPySparkOperator的问题。以下是我在DAG中添加的任务:
run_pyspark_job= DataProcPySparkOperator(
task_id='pyspark_operator_test',
main='/root/airflow/dags/basic_eda.py',
job_name='test_pyspark_job',
cluster_name='test-cluster-20180502',
gcp_conn_id='google_cloud_default',
region='global',
zone='us-central1-b'
)
获得以下错误:
googleapiclient.errors.HttpError:https://dataproc.googleapis.com/v1/projects/project_id/regions/global/jobs:submit?alt=json返回“未找到:群集项目/ project_id / regions / global / clusters / cluster-1”
它没有指向正确的群集
请建议我缺少什么?
答案 0 :(得分:3)
Airflow 1.9中的参数已更改。要指定群集ID,使用的dataproc_cluster
参数在1.9中已更改为cluster_name
。
因此,如果您使用的是apache-airflow< ='1.8.2',请使用dataproc_cluster
指定cluster_id('test-cluster-20180502'
)。
检查:https://github.com/apache/incubator-airflow/blob/master/UPDATING.md#deprecated-features