使用google dataflow解压缩大型bzip2文件

时间:2017-07-13 09:26:46

标签: java google-cloud-storage large-files google-cloud-dataflow bzip2

我在谷歌云存储上有一堆用bzip2压缩的mysql转储。我想解压它们。

我尝试使用这样定义的管道:

p.apply(TextIO
        .Read
        .from("gs://bucket/dump.sql.bz2")
        .withCompressionType(TextIO.CompressionType.BZIP2))
 .apply(TextIO
        .Write
        .to("gs://bucket/dump.sql")
        .withoutSharding());

压缩文件大约为5GB,未压缩文件大约为50GB。

问题是生成的文件只有大约800kB,并且由第一堆行组成。

我有什么问题吗?或者是否有另一种在谷歌云存储上自动解压缩文件的简单方法?

编辑: 我发现只有在使用pbzip2压缩文件时才会发生这种情况,当使用bzip2时,一切都很好。 似乎只读取了第一个块。当我减少块大小时,不完整的输出文件的大小如下。

0 个答案:

没有答案