Pyspark,我应该多久创建一次新的Spark会话?

时间:2019-06-13 10:17:07

标签: python python-3.x pyspark

我有一些看起来像带有某些方法的类的管道。在每种方法中,我都会处理一些数据。示例:

class Pipeline:

    def load_users(self):
        pass

    def load_sessions(self):
        pass

我应该使用自定义配置在每种方法中初始化新的spark会话吗?还是最好用__init__方法初始化一次?

1 个答案:

答案 0 :(得分:0)

您可以先执行一次此操作,然后使用spark.conf.set(“ prop”,'val')更改各种Actions /管道时更改Spark属性。多数人就是这样做的,很少有相反的例子。

如果您想获得更好的见识,请亲自找How many SparkSessions can a single application have?。这增加了一些您可以考虑与您的问题相关的见解。问题是您是否真的需要考虑这一点。