如何通过分布式方法在hdfs中压缩大量文件?

时间:2019-04-22 12:46:59

标签: apache-spark hadoop hdfs gzip

我最近需要在hdfs中压缩数百个文件。现在,我可以使用GNU parallel通过多进程在一个节点上工作。但是我的服务器不允许彼此之间使用ssh进行分发。因此,现在我正在寻找一个分布式框架来完成我的工作。 hadoop,spark或flink是否方便在多个节点上压缩这些文件?非常感谢你!

1 个答案:

答案 0 :(得分:0)

您可以ssh从主服务器访问所有主机吗?如果是这样,则将文件列表发送到主服务器,从-S(或--slf)中给定的每个从服务器,从主服务器启动GNU Parallel。