我有一些看起来像带有某些方法的类的管道。在每种方法中,我都会处理一些数据。示例:
class Pipeline:
def load_users(self):
pass
def load_sessions(self):
pass
我应该使用自定义配置在每种方法中初始化新的spark会话吗?还是最好用__init__
方法初始化一次?
答案 0 :(得分:0)
您可以先执行一次此操作,然后使用spark.conf.set(“ prop”,'val')更改各种Actions /管道时更改Spark属性。多数人就是这样做的,很少有相反的例子。
如果您想获得更好的见识,请亲自找How many SparkSessions can a single application have?。这增加了一些您可以考虑与您的问题相关的见解。问题是您是否真的需要考虑这一点。