一个目录中的gz文件。我想将它们组合在一个大的.gz文件中并解压缩并加载到HDFS中。
例如repo包含文件a.gz,b.gz,c.gz。现在我想将它们组合成一个名为d.gz的文件,我想将其解压缩并加载到HDFS中。这些.gz文件是CSV文件。
要解压缩它我知道我可以使用GZIPInput / OutputStream但是如何将文件合并为一个Java文件中的大文件。
请指导。提前谢谢。
答案 0 :(得分:2)
gz文件只包含一个文件。它并不意味着包含多个文件。
执行此操作的最佳方法是将文件一起TAR,然后GZ生成TAR。 TAR具有命令行选项,可将其自动化为单个操作。对于Java,请使用jtar:https://code.google.com/p/jtar/
或者,ZIP文件可能是您正在寻找的内容。