是火花和气流的新手,试图了解我如何使用气流开始工作以及工作所需的参数。我使用下面的spark-submit命令为边缘节点中的特定日期运行特定作业,如下所示,
EXECUTORS_MEM=4G
EXECUTORS_NUM=300
STARTDAY=20180401
ENDDAY=20180401
QUEUE=m
jobname=x
/home/spark/spark-2.1.0-bin-hadoop2.6/bin/spark-submit --verbose --master yarn --deploy-mode client $EXECUTORS_NUM --executor-memory $EXECUTORS_MEM --executor-cores 1 --driver-memory 8G --queue $QUEUE --class test.core.Driver --jars $JARS2 abc.jar --config=/a/b/c/test.config --appName=abc --sparkMaster=yarnclient --job=$jobname --days=$STARTDAY,$ENDDAY
所以,如果我创建类似于下面代码的.py来运行气流工作,请告诉我吗? 这是你应该如何经营一份工作&传递参数?
如何传递参数,就像我在边缘节点中启动作业一样?
如果我自动将作业自动运行,我希望开始日期为“t-7”,因此如果今天的日期是4/20/2018,则作业的开始日期必须是4/13/2018。我如何实现它?
###############.py file example ##############
**********************************************
import BashOperator
import os
import sys
os.environ['SPARK_HOME'] = '/path/to/spark/root'
sys.path.append(os.path.join(os.environ['SPARK_HOME'], 'bin'))
import os
import sys
os.environ['SPARK_HOME'] = '/home/spark/spark-2.1.0-bin-hadoop2.6/bin/'
sys.path.append(os.path.join(os.environ['SPARK_HOME'], 'bin'))
and add operator:
spark_task = BashOperator(
task_id='spark_java',
bash_command='spark-submit --class test.core.Driver abc.jar',
params={'EXECUTORS_MEM': '4G', 'EXECUTORS_NUM': '300', 'QUEUE' :'m' , 'jobname' : 'x'},
dag=dag
)
################### EOF ######################
**********************************************
是否可以通过某些开始&手动结束日期以运行作业?
from airflow import DAG
from airflow.contrib.operators.spark_submit_operator import SparkSubmitOperator
from airflow.utils import timezone
DEFAULT_DATE = timezone.datetime(2017, 1, 1)
args = {
'owner': 'airflow',
'start_date': DEFAULT_DATE
}
dag = DAG('test_dag_id', default_args=args)
_config = {
'config' : '/a/b/c/d/prod.config'
'master' : 'yarn'
'deploy-mode' : 'client'
'sparkMaster' : 'yarnclient'
'class' : 'core.Driver'
'driver_classpath': 'parquet.jar',
'jars': '/a/b/c/d/test.jar',
'total_executor_cores': 4,
'executor_cores': 1,
'EXECUTORS_MEM': '8G',
'EXECUTORS_NUM': 500,
'executor-cores' : '1',
'driver-memory' : '8G',
'JOB_NAME' : ' ',
'QUEUE' : ' ',
'verbose' : ' '
'start_date' : ' '
'end_date' : ' '
]
}
operator = SparkSubmitOperator(
task_id='spark_submit_job',
dag=dag,
**_config
)
答案 0 :(得分:3)
开始日期是您设置的一次,它的目的是绝对设置,而不是相对于当天。
像这样:
from airflow import DAG
dag = DAG(
...
start_date=datetime.datetime(2018, 4, 13),
)
可以将开始日期设置为datetime.timedelta(days=7)
之类的增量,但不建议这样做,因为如果您要删除DAG(包括所有引用,例如DAG),它会更改开始日期运行,任务实例等)并在另一天从头开始再次运行它。最佳做法是使DAG成为幂等的。
为了向Spark提交作业,有一个SparkSubmitOperator
包装了spark-submit
shell命令。那将是首选方案。也就是说,您基本上可以使用BashOperator
执行任何操作,因此这也是一种可行的选择。
SparkSubmitOperator的链接代码已为其接受的每个参数详细记录。您可以使用application
kwarg指向.jar文件,使用conf
传递Spark配置。还有kwargs用于传递执行程序核心和内存等信息。您可以使用application_args
将任意args列表传递给Spark应用程序。
以下是使用SparkSubmitOperator
复制并在Airflow中对其进行单元测试略微简化的示例。请注意,它使用**
从dict中爆炸kwargs来初始化Spark运算符,但这只是测试的结构。您可以轻松地将每个配置值作为kwarg传递。
from airflow import DAG
from airflow.contrib.operators.spark_submit_operator import SparkSubmitOperator
from airflow.utils import timezone
DEFAULT_DATE = timezone.datetime(2017, 1, 1)
args = {
'owner': 'airflow',
'start_date': DEFAULT_DATE
}
dag = DAG('test_dag_id', default_args=args)
_config = {
'conf': {
'parquet.compression': 'SNAPPY'
},
'files': 'hive-site.xml',
'py_files': 'sample_library.py',
'driver_classpath': 'parquet.jar',
'jars': 'parquet.jar',
'packages': 'com.databricks:spark-avro_2.11:3.2.0',
'exclude_packages': 'org.bad.dependency:1.0.0',
'repositories': 'http://myrepo.org',
'total_executor_cores': 4,
'executor_cores': 4,
'executor_memory': '22g',
'keytab': 'privileged_user.keytab',
'principal': 'user/spark@airflow.org',
'name': '{{ task_instance.task_id }}',
'num_executors': 10,
'verbose': True,
'application': 'test_application.py',
'driver_memory': '3g',
'java_class': 'com.foo.bar.AppMain',
'application_args': [
'-f', 'foo',
'--bar', 'bar',
'--start', '{{ macros.ds_add(ds, -1)}}',
'--end', '{{ ds }}',
'--with-spaces', 'args should keep embdedded spaces',
]
}
operator = SparkSubmitOperator(
task_id='spark_submit_job',
dag=dag,
**_config
)