解码的Snappy压缩字节数组具有尾随零

时间:2016-03-17 22:11:03

标签: scala hadoop apache-spark protocol-buffers snappy

我正在尝试编写和读取从Hadoop序列文件中的protobuf创建的Snappy压缩字节数组。

从hadoop读回的数组有尾随零。如果一个字节数组是一个小而简单的删除尾随零就足以解析protobuf,但对于更复杂的对象和大序列文件解析失败。

字节数组示例:

val data = Array(1,2,6,4,2,1).map(_.toByte)
val distData = sparkContext.parallelize(Array.fill(5)(data))
  .map(j => (NullWritable.get(), new BytesWritable(j)))

distData
  .saveAsSequenceFile(file, Some(classOf[SnappyCodec]))

val original = distData.map(kv=> kv._2.getBytes).collect()

val decoded = sparkContext
  .sequenceFile[NullWritable, BytesWritable](file)
  .map( kv => kv._2.getBytes.mkString).collect().foreach(println(_))

输出: 原文:= 126421 已解码:= 126421000

1 个答案:

答案 0 :(得分:0)

此问题源于BytesWritable.getBytes,它返回的支持数组可能比您的数据长。相反,请致电copyBytes(如Write and read raw byte arrays in Spark - using Sequence File SequenceFile)。

有关详细信息,请参阅HADOOP-6298: BytesWritable#getBytes is a bad name that leads to programming mistakes