Question

我正在开发一个自定义Spark数据源，并希望架构包含一行原始字节数组类型。

我的问题是结果字节数组中的字节被装箱：输出的类型为WrappedArray$ofRef。这意味着每个字节都表示为java.lang.Object。虽然我可以解决这个问题，但我担心的是计算和内存开销，这对我的应用程序至关重要。我真的只想要原始数组！

以下是演示此行为的最小示例。

class DefaultSource extends SchemaRelationProvider with DataSourceRegister {

    override def shortName(): String = "..."

    override def createRelation(
                                    sqlContext: SQLContext,
                                    parameters: Map[String, String],
                                    schema: StructType = new StructType()
                               ): BaseRelation = {
        new DefaultRelation(sqlContext)
    }
}

class DefaultRelation(val sqlContext: SQLContext) extends BaseRelation with PrunedFilteredScan {

    override def schema = {
        StructType(
            Array(
                StructField("key", ArrayType(ByteType))
            )
        )
    }

    override def buildScan(
                              requiredColumnNames: Array[String],
                              filterArr: Array[Filter]
                          ): RDD[Row] = {
        testRDD
    }

    def testRDD = sqlContext.sparkContext.parallelize(
        List(
            Row(
                Array[Byte](1)
            )
        )
    )
}

使用此示例数据源如下：

def schema = StructType(Array(StructField("key", ArrayType(ByteType))))
val rows = sqlContext
        .read
        .schema(schema)
        .format("testdatasource")
        .load
        .collect()
println(rows(0)(0).getClass)

然后生成以下输出：

class scala.collection.mutable.WrappedArray$ofRef

在调试器中进一步检查结果类型确认WrappedArray中的字节确实是盒装的 - 由于某种原因，它们的类型一直被删除到java.lang.Object（而不是java.lang.Byte）

请注意，直接使用RDD而不通过数据源API会导致原始字节数组的预期结果。

非常感谢任何有关如何解决此问题的建议。

Answer 1

好的，对于原始字节数组，我应该使用BinaryType而不是Array(Byte)作为列类型。这解决了这个问题。

出于好奇，如果我们将ArrayType(ByteType)更改为例如在上面的示例中，ArrayType(LongType)实际上我们得到一个运行时异常，表明需要盒装long。因此，似乎Spark SQL数组中的原语总是被装箱。

如何在自定义数据源中避免数组中的装箱字节？

1 个答案: