如何将scala.collection.Set转换为RDD中可序列化的java.util.Set

时间:2014-07-19 06:44:30

标签: java serialization apache-spark scala-2.9 rdd

我有一个scala.collection.Set scalaSet : Set[Long]

我如何将其转换为可序列化的java.util.Set。我尝试了以下代码,但得到了     java.io.notserializableexception: scala.collection.convert.wrappers$setWrapper

import scala.collection.JavaConversions._

Class MySerializableClass extends Serializable {

    // method to implement the Scala to Java operations on the given RDD
    def rddOps(dummyRDD: RDD[(Long, Set[Long])]) = {
        val dummyRDDWithJavaSet = dummyRDD.map( {
            case(key, value) => (key, scalaToJavaSetConverter(value))
    }

    // scala Set to Java Set Converters
    def scalaToJavaSetConverter(scalaSet: Set[Long]): java.util.Set[Long] = {
        val javaSet : java.util.Set[Long] = setAsJavaSet(scalaSet)
        javaSet
    }
}

我已经看到了帖子notserializable exception when trying to serialize java map converted from scala的答案,但解决方案并不适用于序列化

1 个答案:

答案 0 :(得分:4)

scala.collection.JavaConvertions/JavaConverters的序列化问题是这些转换器是使用底层(scala / java)对象的包装器。它们只是一个包装器,因此它可以有效地序列化,它们必须保证底层结构是可序列化的。

您的最简单的解决方案是在转换方法中实现结构副本:

// scala Set to Java Set Converters
def scalaToJavaSetConverter(scalaSet: Set[Long]): java.util.Set[Long] = {
    val javaSet = new java.util.HashSet[Long]()
    scalaSet.foreach(entry => javaSet.add(entry))
    javaSet
}