Question

我尝试通过Apache Livy批处理发送args 我有一个python文件main.py和archives.py 在档案中，我有3个SparkJobs类似模块我尝试将请求数据args发送到请求中，

data = {
'pyFiles':['/user/ndavydov/jobs.zip'],
'file': '/user/ndavydov/main.py',
'executorMemory': '4G',
'executorCores': 2,
'driverMemory': '4G',
'queue': 'dev_group',
'numExecutors': 15,
'name': 'livy',
'args': ['--job simple_job'],
'conf': {
    'spark.shuffle.service.enabled': 'true',
    'spark.dynamicAllocation.enabled': 'true',
    'spark.sql.warehouse.dir': '/apps/hive/warehouse',
    'spark.driver.maxResultSize': '6G',
    'spark.yarn.dist.archives': 'hdfs:///user/vbykov/app/conda.zip',
    'spark.sql.execution.pandas.respectSessionTimeZone': 'false',
        }}

我的main.py像这样解析这个参数：

parser = argparse.ArgumentParser()
parser.add_argument('--job', type=str, required=True)
parser.add_argument('--job-args', nargs='*')
args = parser.parse_args()

在纱线记录中，我得到--job arg是必需的---> args无法解析

该问题该怎么办？

如何解析通过Apache Livy发送的PySpark Job中的参数？

0 个答案: