我在谷歌云存储上有一堆用bzip2压缩的mysql转储。我想解压它们。
我尝试使用这样定义的管道:
p.apply(TextIO
.Read
.from("gs://bucket/dump.sql.bz2")
.withCompressionType(TextIO.CompressionType.BZIP2))
.apply(TextIO
.Write
.to("gs://bucket/dump.sql")
.withoutSharding());
压缩文件大约为5GB,未压缩文件大约为50GB。
问题是生成的文件只有大约800kB,并且由第一堆行组成。
我有什么问题吗?或者是否有另一种在谷歌云存储上自动解压缩文件的简单方法?
编辑: 我发现只有在使用pbzip2压缩文件时才会发生这种情况,当使用bzip2时,一切都很好。 似乎只读取了第一个块。当我减少块大小时,不完整的输出文件的大小如下。