JavaSparkContext并行化丢失的内容

时间:2017-02-10 12:37:36

标签: java apache-spark lucene

我有一个经典的' Singleton'模式,以便在多个类中共享JavaSparkContext。我想并行化包含名为ColumnCombinationBitset的自定义类的列表。正如名称所示,它由OpenBitSet可序列化字段组成。 即使初始列表确实包含我的位集,但在使用JavaSparkContext parallelize方法将列表转换为RDD后,它们似乎是空的。

我相信我在OpenBitSet包装类的序列化上做错了,但我不确定是不是这样。我已经实现了hashCode,equals用于条件检查,readObject,writeObject用于序列化,我已经放置了一个空参数构造函数。

1 个答案:

答案 0 :(得分:0)

我必须创建ColumnCombinationBitset的Broadcast包装器。在此之后,我能够使用parallelize成功创建rdd。