如何将Spark Jar提交给带有参数的集群:
./spark-submit --class package.Main --master spark://master_IP:7077 --deploy-mode=cluster --jars /spark/examples/jars/local.jar s3://a_bucket_here/tests/BlackFriday.csv
s3://a_bucket_here/tests/BlackFriday.csv
是主要功能的参数。
我得到了错误:
Jar url 's3://a_bucket_here/tests/BlackFriday.csv' is not in a valid format.
Must be a jar file path in URL format (e.g. hdfs://host:port/XX.jar, file:///XX.jar)
在这种情况下如何传递参数?
在主机上没有--jar
的情况下就可以使用,但是我需要上传本地jar,因此--jars
是必须的
答案 0 :(得分:0)
应用了--jars /spark/examples/jars/local.jar s3://a_bucket_here/tests/BlackFriday.csv
期望第二个文件也是jar,我已经重新组织了您的命令,请尝试以下命令:
./spark-submit --class package.Main /spark/examples/jars/local.jar --master
spark://master_IP:7077 --deploy-mode=cluster s3://a_bucket_here/tests/BlackFriday.csv
注意:您不需要为主jar指定--jars,这是其他jar所提供的选项。
第二,我认为您必须在代码中将s3://a_bucket_here/tests/BlackFriday.csv处理为args(0)