用--jar和Main类的参数进行Spark提交

时间:2019-02-20 11:24:04

标签: apache-spark

如何将Spark Jar提交给带有参数的集群:

./spark-submit --class package.Main --master spark://master_IP:7077 --deploy-mode=cluster --jars /spark/examples/jars/local.jar s3://a_bucket_here/tests/BlackFriday.csv

s3://a_bucket_here/tests/BlackFriday.csv是主要功能的参数。

我得到了错误:

Jar url 's3://a_bucket_here/tests/BlackFriday.csv' is not in a valid format.
Must be a jar file path in URL format (e.g. hdfs://host:port/XX.jar, file:///XX.jar)

在这种情况下如何传递参数?

在主机上没有--jar的情况下就可以使用,但是我需要上传本地jar,因此--jars是必须的

1 个答案:

答案 0 :(得分:0)

应用了--jars /spark/examples/jars/local.jar s3://a_bucket_here/tests/BlackFriday.csv

期望第二个文件也是jar,我已经重新组织了您的命令,请尝试以下命令:

./spark-submit --class package.Main /spark/examples/jars/local.jar --master 
spark://master_IP:7077 --deploy-mode=cluster s3://a_bucket_here/tests/BlackFriday.csv

注意:您不需要为主jar指定--jars,这是其他jar所提供的选项。

第二,我认为您必须在代码中将s3://a_bucket_here/tests/BlackFriday.csv处理为args(0)