我有一些大的base64编码数据(存储在hadoop文件系统中的snappy文件中)。 这个数据最初是gzip压缩的文本数据。 我需要能够读取这些编码数据的块,对其进行解码,然后将其刷新到GZIPOutputStream。
有关如何执行此操作而不是将整个base64数据加载到数组并调用Base64.decodeBase64(byte [])的任何想法?
如果我将字符读到'\ r \ n'分隔符并逐行解码,我是对的吗? 例如:
for (int i = 0; i < byteData.length; i++) {
if (byteData[i] == CARRIAGE_RETURN || byteData[i] == NEWLINE) {
if (i < byteData.length - 1 && byteData[i + 1] == NEWLINE)
i += 2;
else
i += 1;
byteBuffer.put(Base64.decodeBase64(record));
byteCounter = 0;
record = new byte[8192];
} else {
record[byteCounter++] = byteData[i];
}
}
可悲的是,这种方法并没有给出任何人类可读的输出。 理想情况下,我想流式读取,解码和流出数据。
现在,我正在尝试输入一个输入流,然后复制到gzipout
byteBuffer.get(bufferBytes);
InputStream inputStream = new ByteArrayInputStream(bufferBytes);
inputStream = new GZIPInputStream(inputStream);
IOUtils.copy(inputStream , gzipOutputStream);
它给了我一个 java.io.IOException:损坏的GZIP预告片
答案 0 :(得分:5)
让我们一步一步走:
您需要GZIPInputStream
来读取压缩数据(而不是GZIPOutputStream
;输出流用于压缩数据)。拥有此流后,您将能够读取未压缩的原始二进制数据。这需要构造函数中的InputStream
。
您需要一个能够读取Base64编码数据的输入流。我建议来自Base64InputStream
的方便apache-commons-codec。使用构造函数,您可以设置行长度,行分隔符并设置doEncode=false
以解码数据。这又需要另一个输入流 - 原始的Base64编码数据。
此流取决于您获取数据的方式;理想情况下,数据应该以{{1}}的形式提供 - 问题已解决。如果没有,您可能必须使用InputStream
(如果是二进制),ByteArrayInputStream
(如果是字符串)等。
大致这个逻辑是:
StringBufferInputStream
请注意InputStream fromHadoop = ...; // 3rd paragraph
Base64InputStream b64is = // 2nd paragraph
new Base64InputStream(fromHadoop, false, 80, "\n".getBytes("UTF-8"));
GZIPInputStream zis = new GZIPInputStream(b64is); // 1st paragraph
(行长度和行尾字节数组)的参数,您可能需要调整它们。
答案 1 :(得分:0)
感谢Nikos指出我正确的方向。 具体来说,这就是我所做的:
private static final byte NEWLINE = (byte) '\n';
private static final byte CARRIAGE_RETURN = (byte) '\r';
byte[] lineSeparators = new byte[] {CARRIAGE_RETURN, NEWLINE};
Base64InputStream b64is = new Base64InputStream(inputStream, false, 76, lineSeparators);
GZIPInputStream zis = new GZIPInputStream(b64is);
Base64线的长度不是76吗?不过,我没有试过80。