火花提交配置:罐子,包装

时间:2020-06-12 06:38:34

标签: mongodb pyspark spark-submit

任何人都可以告诉我如何使用jar和包装。

  1. 我正在研究网络应用。
  2. 对于引擎端spark-mongo

bin / spark-submit --properties-file config.properties --packages org.mongodb.spark:mongo-spark-connector_2.11:2.4.1,com.crealytics:spark-excel_2.11:0.13.1 /home/PycharmProjects/EngineSpark.py 8dh1243sg2636hlf38m

  • 我正在使用上述命令,但每次都从maven存储库(jar和包)中下载。
  • 所以现在我担心的是,如果我处于离线状态会给我错误
  • 如果他们能以任何方式只下载一次,那就很好了,所以不必每次都下载
  • 关于如何处理它的任何建议。

2 个答案:

答案 0 :(得分:1)

获取所需的所有jar文件,然后将它们作为参数传递给spark-submit。

这样,您不必在每次提交Spark作业时都下载文件。

您必须使用--jars而不是--packages

bin/spark-submit --properties-file config.properties --jars /home/PycharmProjects/spark-excel_2.11-0.11.1.jar,/home/PycharmProjects/mongo-spark-connector_2.11-2.4.1.jar /home/PycharmProjects/EngineSpark.py 8dh1243sg2636hlf38m

答案 1 :(得分:0)

线程“ main”中的异常org.apache.spark.SparkException:JAR中未设置任何主类;请使用--class

指定一个

可能是因为无法找到jar文件,可能是路径不正确或尝试给出 --jars配置最后,--class首先。