我一直在使用scala spark下的spark-csv包https://github.com/databricks/spark-csv。我想安装软件包,以便在运行--packages com.databricks:spark-csv_2.10:1.3.0
时无需使用标记spark-shell
即可访问软件包功能。
答案 0 :(得分:1)
SPARK_HOME
目录conf/spark-defaults.conf
添加spark.jars.packages
属性,其中包含以逗号分隔的所需包列表。例如:
spark.jars.packages com.databricks:spark-csv_2.10:1.3.0,com.databricks:spark-xml_2.10:0.3.1
答案 1 :(得分:0)
如果您使用maven作为构建工具,可以在build.sbt文件中的 libraryDependencies 键下添加包作为依赖项,或者添加到pom.xml文件中。当您使用sbt-assembly插件或maven程序集插件创建超级jar时,databricks-csv jar将打包在生成的jar中。然后,您只需使用spark-submit
即可运行代码,而无需使用--packages
命令行选项