为scala spark添加一个新的spark-package

时间:2016-02-01 11:05:08

标签: scala apache-spark

我一直在使用scala spark下的spark-csv包https://github.com/databricks/spark-csv。我想安装软件包,以便在运行--packages com.databricks:spark-csv_2.10:1.3.0时无需使用标记spark-shell即可访问软件包功能。

2 个答案:

答案 0 :(得分:1)

  1. 转到SPARK_HOME目录
  2. 创建或打开conf/spark-defaults.conf
  3. 添加spark.jars.packages属性,其中包含以逗号分隔的所需包列表。例如:

    spark.jars.packages com.databricks:spark-csv_2.10:1.3.0,com.databricks:spark-xml_2.10:0.3.1
    

答案 1 :(得分:0)

如果您使用maven作为构建工具,可以在build.sbt文件中的 libraryDependencies 键下添加包作为依赖项,或者添加到pom.xml文件中。当您使用sbt-assembly插件或maven程序集插件创建超级jar时,databricks-csv jar将打包在生成的jar中。然后,您只需使用spark-submit即可运行代码,而无需使用--packages命令行选项