java - 使用google dataflow解压缩大型bzip2文件

我在谷歌云存储上有一堆用bzip2压缩的mysql转储。我想解压它们。

我尝试使用这样定义的管道：

p.apply(TextIO
        .Read
        .from("gs://bucket/dump.sql.bz2")
        .withCompressionType(TextIO.CompressionType.BZIP2))
 .apply(TextIO
        .Write
        .to("gs://bucket/dump.sql")
        .withoutSharding());

压缩文件大约为5GB，未压缩文件大约为50GB。

问题是生成的文件只有大约800kB，并且由第一堆行组成。

我有什么问题吗？或者是否有另一种在谷歌云存储上自动解压缩文件的简单方法？

编辑：我发现只有在使用pbzip2压缩文件时才会发生这种情况，当使用bzip2时，一切都很好。似乎只读取了第一个块。当我减少块大小时，不完整的输出文件的大小如下。

使用google dataflow解压缩大型bzip2文件

0 个答案: