如何在pyspark anaconda中添加jar文件?

时间:2018-09-10 06:55:03

标签: pyspark

from pyspark.sql import Row

from pyspark import SparkConf, SparkContext

conf=SparkConf().setAppName("2048roject").setMaster("local[*]")\
     .set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g")
sc=SparkContext.getOrCreate(conf)
dfv = sc.textFile("./part-001*.gz")

我已经通过anaconda安装了pyspark,并且可以在anaconda python中导入pyspark。但是我不知道如何在conf中添加jar文件。

我尝试了

conf=SparkConf().setAppName("2048roject").setMaster("local[*]")\
     .set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g").set('spark.jars.packages','file:///XXX,jar')

但是它不起作用。 有什么适当的方法可以在此处添加jar文件吗?

1 个答案:

答案 0 :(得分:0)

docs说:

  

spark.jars.packages:以逗号分隔的jar的Maven坐标列表,包括在驱动程序和执行程序的类路径中。坐标应为groupId:artifactId:version。如果给了spark.jars.ivySettings,则将根据文件中的配置解析工件,否则将在本地Maven存储库中搜索工件,然后在Maven Central中搜索,最后在命令行选项中指定的任何其他远程存储库中搜索-仓库。有关更多详细信息,请参阅高级依赖关系管理。

相反,您应该只使用spark.jars

  

spark.jars:以逗号分隔的jar列表,​​包括在驱动程序和执行程序的类路径中。允许使用小球。

所以:

conf=SparkConf().setAppName("2048roject").setMaster("local[*]")\
     .set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g").set('spark.jars.files','file:///XXX.jar')