我正在使用两个类的mixin工厂使用PySpark
但每次调用map函数时,内核都会中断,尝试调试并找到相关解决方案,但没有找到任何支持。
目前我有多个班级,根据需要调用这些班级 有趣的是,这种格式适用于之前版本的Spark(1.6)但不适用于最新的Spark 2.0
我认为这是由于工人之间类似的元类名称相互冲突......
所以,更正或一些参考将深表赞赏
def mixin_factory(name, base, mixin):
class _tmp(base, mixin):
pass
_tmp.__name__ = name
return _tmp
def Mix_map_function(dataframe) :
MixClass = mixin_factory("MixClass", Class_A, Class_B)
MixClass( .... , dataframe ) # class initialization parameters using constructor
PiplinedRDD.map(lambda x: Mix_map_function(x[0]) , preservesPartitioning=True )
# x[0] some partitioned data from rdd