在S3中上传输入流块后,无法解压缩压缩后的文件

时间:2019-01-31 11:47:43

标签: java amazon-web-services spring-boot amazon-s3 gzip

我想获取输入流,并以与分段上传器类似的方式将压缩的部分上传到s3。 但是,我想将单个文件部分存储在S3中,而不要将这些部分变成单个文件。

为此,我创建了以下方法。 但是,当我尝试对gzip进行解压缩时,gzip会抛出错误并说:gzip: file_part_2.log.gz: not in gzip format

我不确定是否正确压缩了每个部分?

如果我重新初始化gzipoutputstream:gzip = new GZIPOutputStream(baos);并在重置字节数组输出流gzip.finish()之后设置baos.reset();,则可以解压缩每个部分。不确定为什么需要这样做,gzipoutputstream是否有类似的reset

public void upload(String bucket, String key, InputStream is, int partSize) throws Exception
{
    String row;
    BufferedReader br = new BufferedReader(new InputStreamReader(is, ENCODING));
    ByteArrayOutputStream baos = new ByteArrayOutputStream();
    GZIPOutputStream gzip = new GZIPOutputStream(baos);

    int partCounter = 0;
    int lineCounter = 0;
    while ((row = br.readLine()) != null) {
        if (baos.size() >= partSize) {
            partCounter = this.uploadChunk(bucket, key, baos, partCounter);

            baos.reset();
        }else if(!row.equals("")){
            row += '\n';
            gzip.write(row.getBytes(ENCODING));
            lineCounter++;
        }
    }

    gzip.finish();
    br.close();
    baos.close();

    if(lineCounter == 0){
        throw new Exception("Aborting upload, file contents is empty!");
    }

    //Final chunk
    if (baos.size() > 0) {
        this.uploadChunk(bucket, key, baos, partCounter);
    }
}

private int uploadChunk(String bucket, String key, ByteArrayOutputStream baos, int partCounter)
{
    ObjectMetadata metaData = new ObjectMetadata();
    metaData.setContentLength(baos.size());

    String[] path = key.split("/");
    String[] filename = path[path.length-1].split("\\.");

    filename[0] = filename[0]+"_part_"+partCounter;

    path[path.length-1] = String.join(".", filename);

    amazonS3.putObject(
            bucket,
            String.join("/", path),
            new ByteArrayInputStream(baos.toByteArray()),
            metaData
    );

    log.info("Upload chunk {}, size: {}", partCounter, baos.size());

    return partCounter+1;
}

1 个答案:

答案 0 :(得分:1)

问题是您对所有块都使用了一个GZipOutputStream。因此,您实际上是在编写GZipped文件的一部分,必须重新组合才能使用。

对现有代码进行最小的更改:

if (baos.size() >= partSize) {
    gzip.close(); 
    partCounter = this.uploadChunk(bucket, key, baos, partCounter);
    baos = baos = new ByteArrayOutputStream();
    gzip = new GZIPOutputStream(baos);
}

您需要在循环结束时执行相同的操作。另外,如果行计数器为0,则不应引发异常:文件完全有可能被整整为一定数量的块。

为了改进代码,我将GZIPOutputStream包裹在OutputStreamWriterBufferedWriter中,这样就无需显式地进行字符串字节转换。

最后,请勿使用ByteArrayOutputStream.reset()。它不仅可以为您创建新的视频流,还可以为您节省任何费用,而且如果您忘记重设密码,则可以打开错误大门。