from pyspark.sql import Row
from pyspark import SparkConf, SparkContext
conf=SparkConf().setAppName("2048roject").setMaster("local[*]")\
.set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g")
sc=SparkContext.getOrCreate(conf)
dfv = sc.textFile("./part-001*.gz")
我已经通过anaconda安装了pyspark,并且可以在anaconda python中导入pyspark。但是我不知道如何在conf
中添加jar文件。
我尝试了
conf=SparkConf().setAppName("2048roject").setMaster("local[*]")\
.set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g").set('spark.jars.packages','file:///XXX,jar')
但是它不起作用。 有什么适当的方法可以在此处添加jar文件吗?
答案 0 :(得分:0)
docs说:
spark.jars.packages:以逗号分隔的jar的Maven坐标列表,包括在驱动程序和执行程序的类路径中。坐标应为groupId:artifactId:version。如果给了spark.jars.ivySettings,则将根据文件中的配置解析工件,否则将在本地Maven存储库中搜索工件,然后在Maven Central中搜索,最后在命令行选项中指定的任何其他远程存储库中搜索-仓库。有关更多详细信息,请参阅高级依赖关系管理。
相反,您应该只使用spark.jars
:
spark.jars:以逗号分隔的jar列表,包括在驱动程序和执行程序的类路径中。允许使用小球。
所以:
conf=SparkConf().setAppName("2048roject").setMaster("local[*]")\
.set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g").set('spark.jars.files','file:///XXX.jar')