在创建上下文后将jar文件添加到pyspark

时间:2017-03-23 04:51:42

标签: python apache-spark jar

我在笔记本中使用pyspark而且我没有处理SparkSession的创建。 我需要在处理我的rdds时加载一个包含我想要使用的函数的jar。这是你可以很容易地使用--jars在我的特定情况下无法做到的事情。 有没有办法访问spark scala上下文并调用addJar方法?我尝试使用JavaGateway(sparksession._jvm ...)但到目前为止还没有成功。有什么想法吗?

由于 纪尧姆

3 个答案:

答案 0 :(得分:1)

sparksession._jsc.addJar完成这项工作。

答案 1 :(得分:0)

您可以尝试使用此方法,该方法会将文件添加到所有节点的上下文中:

spark.sparkContext.addFile("filename")

答案 2 :(得分:0)

通过addJar分发xxx.jar并通过extraClassPath导入

spark = SparkSession.builder.config('spark.driver.extraClassPath', 'xxx.jar').getOrCreate()
spark.sparkContext._jsc.addJar('/xxx/xxx/xxx.jar')