如何使用--packages为spark-submit指定多个依赖项?

时间:2015-11-25 23:10:11

标签: apache-spark hbase spark-streaming

我有以下命令行来启动火花流式传输作业。

    spark-submit --class com.biz.test \
            --packages \
                org.apache.spark:spark-streaming-kafka_2.10:1.3.0 \
                org.apache.hbase:hbase-common:1.0.0 \
                org.apache.hbase:hbase-client:1.0.0 \
                org.apache.hbase:hbase-server:1.0.0 \
                org.json4s:json4s-jackson:3.2.11 \
            ./test-spark_2.10-1.0.8.jar \
            >spark_log 2>&1 &

作业无法启动,出现以下错误:

Exception in thread "main" java.lang.IllegalArgumentException: Given path is malformed: org.apache.hbase:hbase-common:1.0.0
    at org.apache.spark.util.Utils$.resolveURI(Utils.scala:1665)
    at org.apache.spark.deploy.SparkSubmitArguments.parse$1(SparkSubmitArguments.scala:432)
    at org.apache.spark.deploy.SparkSubmitArguments.parseOpts(SparkSubmitArguments.scala:288)
    at org.apache.spark.deploy.SparkSubmitArguments.<init>(SparkSubmitArguments.scala:87)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:105)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

我已尝试删除格式并返回单行,但这并不能解决问题。我还尝试过一系列变体:不同的版本,将_2.10添加到a​​rtifactId的末尾等等。

根据文档(spark-submit --help):

  

坐标的格式应为groupId:artifactId:version。

所以我所拥有的应该是有效的,应该参考this package

如果有帮助,我正在运行Cloudera 5.4.4。

我做错了什么?如何正确引用hbase包?

2 个答案:

答案 0 :(得分:38)

应使用逗号分隔包列表,不要使用空格(例如,断行应该可以正常工作),例如

--packages  org.apache.spark:spark-streaming-kafka_2.10:1.3.0,\
  org.apache.hbase:hbase-common:1.0.0

答案 1 :(得分:0)

我发现值得在适用于mysql和postgres的spark版本3.0.0中使用SparkSession

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('mysql-postgres').config('spark.jars.packages', 'mysql:mysql-connector-java:8.0.20,org.postgresql:postgresql:42.2.16').getOrCreate()