hdfs上的zip.xml文件到hdfs的另一个文件夹,而不将它们复制到本地

时间:2017-09-15 10:07:42

标签: java xml hadoop mapreduce zip

我在hdfs上有很多xml文件,我是用java程序从序列文件中提取的。

最初,文件很少,所以我将提取的xml文件复制到我的本地,然后运行unix zip命令,然后将xmls压缩成单个.zip文件。

现在xml文件的数量已经增加,现在我无法将它们复制到本地,因为我的内存不足。

我的需要是将所有这些xml文件(在hdfs上)压缩成单个压缩文件(到hdfs),而无需将其复制到本地。

我无法找到任何导致开始..任何人都可以为我提供一个起点或任何代码(甚至是java MR),以便我可以更进一步。我可以看到这可以使用mapreduce完成,但我从来没有在其中编程,这就是为什么尝试其他方式

提前致谢..

0 个答案:

没有答案