应用错误收集

如何通过分布式方法在hdfs中压缩大量文件？

时间：2019-04-22 12:46:59

标签： apache-spark hadoop hdfs gzip

我最近需要在hdfs中压缩数百个文件。现在，我可以使用GNU parallel通过多进程在一个节点上工作。但是我的服务器不允许彼此之间使用ssh进行分发。因此，现在我正在寻找一个分布式框架来完成我的工作。 hadoop，spark或flink是否方便在多个节点上压缩这些文件？非常感谢你！

1 个答案:

答案 0 :(得分：0)

您可以ssh从主服务器访问所有主机吗？如果是这样，则将文件列表发送到主服务器，从-S（或--slf）中给定的每个从服务器，从主服务器启动GNU Parallel。