如何访问使用DataProcPySparkOperator运算符在任务中传递的参数值?

时间:2018-05-07 09:34:56

标签: pyspark airflow

我想将参数传递给Airflow Dag中的特定任务,并在我的pyspark代码中访问它。以下是任务定义:

run_cmd_arg_test_job= DataProcPySparkOperator(
    task_id='test',
    main='gs://dataprocessing_scripts/testArg.py',
    arguments=['2018-05-07'],
    job_name='test',
    dataproc_cluster='smoke-cluster-{{ ds_nodash }}',
    gcp_conn_id='google_cloud_default',
    region='global'
)

如何访问"参数"的值?主文件中的属性" gs://dataprocessing_scripts/testArg.py" ?

1 个答案:

答案 0 :(得分:0)

您必须使用 sys.argv[1],sys.argv[2] sys.argv[0] 将是文件名本身 而 sys.argv[1] 将是“2018-05-07” 还有别忘了导入系统