如何在Java中组合多个.gz文件?

时间:2014-05-09 17:45:17

标签: java file hdfs

一个目录中的gz文件。我想将它们组合在一个大的.gz文件中并解压缩并加载到HDFS中。

例如repo包含文件a.gz,b.gz,c.gz。现在我想将它们组合成一个名为d.gz的文件,我想将其解压缩并加载到HDFS中。这些.gz文件是CSV文件。

要解压缩它我知道我可以使用GZIPInput / OutputStream但是如何将文件合并为一个Java文件中的大文件。

请指导。提前谢谢。

1 个答案:

答案 0 :(得分:2)

gz文件只包含一个文件。它并不意味着包含多个文件。

执行此操作的最佳方法是将文件一起TAR,然后GZ生成TAR。 TAR具有命令行选项,可将其自动化为单个操作。对于Java,请使用jtar:https://code.google.com/p/jtar/

或者,ZIP文件可能是您正在寻找的内容。