使用spark
及其Java
API。我已将数据加载到JavaRDD<CustomizedDataStructure>
,如下所示:
JavaRDD<CustomizedDataStructure> myRDD;
当我这样做时:
myRDD.count();
它向我返回值,表明它确实包含数据,而不是null
RDD。
但是当跑步时:
myRDD.first();
它应该返回<CustomizedDataStructure>
,但它会出现这样的错误:
14:30:39,782 ERROR [TaskSetManager] Task 0.0 in stage 0.0 (TID 0) had a not serializable result:
为什么不是serializable
?
答案 0 :(得分:2)
当您调用first()
时,会导致RDD的第一个元素被复制到驱动程序进程。为此,它必须是可序列化的,默认情况下,这意味着实现java.io.Serializable
。我的猜测是这个自定义类没有。