标签: apache-spark hadoop hdfs gzip
我最近需要在hdfs中压缩数百个文件。现在,我可以使用GNU parallel通过多进程在一个节点上工作。但是我的服务器不允许彼此之间使用ssh进行分发。因此,现在我正在寻找一个分布式框架来完成我的工作。 hadoop,spark或flink是否方便在多个节点上压缩这些文件?非常感谢你!
答案 0 :(得分:0)
您可以ssh从主服务器访问所有主机吗?如果是这样,则将文件列表发送到主服务器,从-S(或--slf)中给定的每个从服务器,从主服务器启动GNU Parallel。
ssh
-S
--slf