在我的项目中,我需要向Spark工作人员提供大量现有的Java对象,其中大部分都不会从java.io.Serializable
扩展。我还希望能够控制对象中包含的变量/属性。我只想序列化有用的属性,而不是对象中的所有内容。
Spark文档表明,有两种方法可以使用java.io.Serializable
或Kryo在Spark中序列化对象。我认为这两种方式都需要为每个业务对象重写一堆包装器或额外的代码。但是,我目前的代码库已经实现了协议缓冲区序列化。我想知道是否有任何方法可以将此序列化机制嵌入到Spark中。