Spark-无法使用first()访问JavaRDD中的第一个元素

时间:2014-12-12 19:41:53

标签: java apache-spark rdd

使用spark及其Java API。我已将数据加载到JavaRDD<CustomizedDataStructure>,如下所示:

JavaRDD<CustomizedDataStructure> myRDD;

当我这样做时:

myRDD.count();

它向我返回值,表明它确实包含数据,而不是null RDD。 但是当跑步时:

myRDD.first();

它应该返回<CustomizedDataStructure>,但它会出现这样的错误:

14:30:39,782 ERROR [TaskSetManager] Task 0.0 in stage 0.0 (TID 0) had a not serializable result:

为什么不是serializable

1 个答案:

答案 0 :(得分:2)

当您调用first()时,会导致RDD的第一个元素被复制到驱动程序进程。为此,它必须是可序列化的,默认情况下,这意味着实现java.io.Serializable。我的猜测是这个自定义类没有。