标签: java scala apache-spark lazy-loading
我有一个延迟加载的静态java类 - 它公开了一个方法getValue(Key key)。在第一次调用getValue时,它会加载一些数据并执行一些相对昂贵的计算。后续调用非常快。我也(在Scala中)有一个RDD [Key],rdd,并希望按照rdd.map(StaticClass.getKey)的方式做一些事情。我的问题是:StaticClass闭包的序列化是否包含资源数据,因此意味着该数据将在整个网络中进行混洗?或者加载只发生在执行者身上(我认为这就是我想要的)
getValue(Key key)
getValue
rdd
rdd.map(StaticClass.getKey)
StaticClass