Pyspark:如何在Yarn集群上运行作业时使用--files标记多个文件

时间:2017-08-05 07:16:52

标签: python pyspark

我是Spark新手并使用python使用pyspark编写作业。我想在纱线群集上运行我的脚本并通过发送log4j.properties来使用WARN标记将日志记录级别设置为--files来删除详细日志记录。我有一个脚本使用的本地csv文件,我也需要包含它。如何使用--files标记包含这两个文件?

我使用以下命令:

/opt/spark/bin/spark-submit --master yarn --deploy-mode cluster --num-executors 50 --executor-cores 2 --executor-memory 2G --files /opt/spark/conf/log4j.properties ./list.csv ./read_parquet.py

但是我收到以下错误: Error: Cannot load main class from JAR file:/opt/spark/conf/./list.csv `

2 个答案:

答案 0 :(得分:0)

你可以删除“。”面向/为第二个文件......在这里我删除了这个工作。

/opt/spark/bin/spark-submit --master yarn --deploy-mode cluster --num-executors 50 --executor-cores 2 --executor-memory 2G --files /opt/spark/conf/log4j.properties /list.csv  /read_parquet.py

答案 1 :(得分:0)

您可以通过文件路径以这样的字符串发送逗号分隔的文件:

--files "filepath1,filepath2,filepath3" \

为我工作!!