我对Apache Airflow的使用非常陌生,目前使用的是带有Python 2.7支持的Airflow1.10.4。 我需要通过Airflow DAG触发火花作业,因此请使用“ DataProcSparkOperator”。但是面临异常
AttributeError:“ DataProcSparkOperator”对象没有属性“ dataproc_spark_jars”
代码段:
from airflow.contrib.operators.dataproc_operator import DataProcSparkOperator
.
.
.
data_t1 = DataProcSparkOperator(
task_id='data_job',
job_name='extract_data',
cluster_name='cluster-a',
arguments=["{{ task_instance.xcom_pull(task_ids='puller') }}","gs://data-bucket/dailydata"],
main_jar='gs://data-bucket/spark_jar1/spark-read-5.0-SNAPSHOT-jar-with-dependencies.jar',
region="us-central",
dag=dag
)
尝试使用main_jar / dataproc_spark_jars属性(所有可能的方式) 但是,我尝试了建议的其他修复措施(因为airflow.contrib.operators.dataproc_operator在某些版本中已弃用),因此在下面使用了
from airflow.gcp.operators.dataproc import DataProcSparkOperator
我再次面对
导入错误:没有模块gcp.operators.dataproc ..