如何使用Spark-submit配置:jars,packages:在集群模式下?

时间:2016-08-12 07:41:51

标签: mongodb maven configuration cluster-computing pyspark

当在群集模式(yarn-cluster)中使用Spark-submit时,jar和包配置让我很困惑:对于jar,我可以将它们放在HDFS中,而不是放在本地目录中。但是对于包,因为它们使用Maven构建,使用HDFS,它无法工作。我的方式如下:

spark-submit --jars hdfs:///mysql-connector-java-5.1.39-bin.jar --driver-class-path /home/liac/test/mysql-connector-java-5.1.39/mysql-connector-java-5.1.39-bin.jar --conf "spark.mongodb.input.uri=mongodb://192.168.27.234/test.myCollection2?readPreference=primaryPreferred" --conf "spark.mongodb.output.uri=mongodb://192.168.27.234/test.myCollection2"  --packages com.mongodb.spark:hdfs:///user/liac/package/jars/mongo-spark-connector_2.11-1.0.0-assembly.jar:1.0.0 --py-files /home/liac/code/diagnose_disease/tool.zip main_disease_tag_spark.py --master yarn-client
发生

错误:

`Exception in thread "main" java.lang.IllegalArgumentException: requirement failed: Provided Maven Coordinates must be in the form 'groupId:artifactId:version'. The coordinate provided is: com.mongodb.spark:hdfs:///user/liac/package/jars/mongo-spark-connector_2.11-1.0.0-assembly.jar:1.0.0

任何人都可以告诉我如何在群集模式下使用jar和包?我的方式有什么问题?

0 个答案:

没有答案