我在hdfs上有很多xml文件,我是用java程序从序列文件中提取的。
最初,文件很少,所以我将提取的xml文件复制到我的本地,然后运行unix zip命令,然后将xmls压缩成单个.zip文件。
现在xml文件的数量已经增加,现在我无法将它们复制到本地,因为我的内存不足。
我的需要是将所有这些xml文件(在hdfs上)压缩成单个压缩文件(到hdfs),而无需将其复制到本地。
我无法找到任何导致开始..任何人都可以为我提供一个起点或任何代码(甚至是java MR),以便我可以更进一步。我可以看到这可以使用mapreduce完成,但我从来没有在其中编程,这就是为什么尝试其他方式
提前致谢..