在Airflow Dags中使用'DataProcSparkOperator'时获取异常

时间:2019-11-01 06:24:09

标签: python apache-spark airflow google-cloud-dataproc airflow-operator

我对Apache Airflow的使用非常陌生,目前使用的是带有Python 2.7支持的Airflow1.10.4。 我需要通过Airflow DAG触发火花作业,因此请使用“ DataProcSparkOperator”。但是面临异常

  

AttributeError:“ DataProcSparkOperator”对象没有属性“ dataproc_spark_jars”

代码段:

from airflow.contrib.operators.dataproc_operator import DataProcSparkOperator
.
.
.
data_t1 = DataProcSparkOperator(
    task_id='data_job',
    job_name='extract_data',
    cluster_name='cluster-a',
    arguments=["{{ task_instance.xcom_pull(task_ids='puller') }}","gs://data-bucket/dailydata"],
    main_jar='gs://data-bucket/spark_jar1/spark-read-5.0-SNAPSHOT-jar-with-dependencies.jar',
    region="us-central",
    dag=dag
)

尝试使用main_jar / dataproc_spark_jars属性(所有可能的方式) 但是,我尝试了建议的其他修复措施(因为airflow.contrib.operators.dataproc_operator在某些版本中已弃用),因此在下面使用了

from airflow.gcp.operators.dataproc import DataProcSparkOperator

我再次面对

  

导入错误:没有模块gcp.operators.dataproc ..

0 个答案:

没有答案