Mixin工厂课程与pyspark

时间:2018-04-30 16:17:16

标签: python apache-spark pyspark spark-dataframe rdd

我正在使用两个类的mixin工厂使用PySpark

但每次调用map函数时,内核都会中断,尝试调试并找到相关解决方案,但没有找到任何支持。

目前我有多个班级,根据需要调用这些班级 有趣的是,这种格式适用于之前版本的Spark(1.6)但不适用于最新的Spark 2.0

我认为这是由于工人之间类似的元类名称相互冲突......

所以,更正或一些参考将深表赞赏

def mixin_factory(name, base, mixin):
    class _tmp(base, mixin):
        pass
    _tmp.__name__ = name
    return _tmp

def Mix_map_function(dataframe) :
    MixClass = mixin_factory("MixClass", Class_A, Class_B)
    MixClass( .... , dataframe ) # class initialization parameters using constructor

PiplinedRDD.map(lambda x: Mix_map_function(x[0]) , preservesPartitioning=True )  
# x[0] some partitioned data from rdd

0 个答案:

没有答案