如何解析通过Apache Livy发送的PySpark Job中的参数?

时间:2018-08-03 14:48:06

标签: python apache-spark hadoop pyspark livy

我尝试通过Apache Livy批处理发送args 我有一个python文件main.py和archives.py 在档案中,我有3个SparkJobs类似模块 我尝试将请求数据args发送到请求中,

data = {
'pyFiles':['/user/ndavydov/jobs.zip'],
'file': '/user/ndavydov/main.py',
'executorMemory': '4G',
'executorCores': 2,
'driverMemory': '4G',
'queue': 'dev_group',
'numExecutors': 15,
'name': 'livy',
'args': ['--job simple_job'],
'conf': {
    'spark.shuffle.service.enabled': 'true',
    'spark.dynamicAllocation.enabled': 'true',
    'spark.sql.warehouse.dir': '/apps/hive/warehouse',
    'spark.driver.maxResultSize': '6G',
    'spark.yarn.dist.archives': 'hdfs:///user/vbykov/app/conda.zip',
    'spark.sql.execution.pandas.respectSessionTimeZone': 'false',
        }}

我的main.py像这样解析这个参数:

parser = argparse.ArgumentParser()
parser.add_argument('--job', type=str, required=True)
parser.add_argument('--job-args', nargs='*')
args = parser.parse_args()

在纱线记录中,我得到--job arg是必需的---> args无法解析

该问题该怎么办?

0 个答案:

没有答案