我有一个经典的' Singleton'模式,以便在多个类中共享JavaSparkContext。我想并行化包含名为ColumnCombinationBitset的自定义类的列表。正如名称所示,它由OpenBitSet可序列化字段组成。 即使初始列表确实包含我的位集,但在使用JavaSparkContext parallelize方法将列表转换为RDD后,它们似乎是空的。
我相信我在OpenBitSet包装类的序列化上做错了,但我不确定是不是这样。我已经实现了hashCode,equals用于条件检查,readObject,writeObject用于序列化,我已经放置了一个空参数构造函数。
答案 0 :(得分:0)
我必须创建ColumnCombinationBitset的Broadcast包装器。在此之后,我能够使用parallelize成功创建rdd。