Question

我有一个分割的zip文件（由窗口中的 winzip创建），然后通过ftp传输到hadoop服务器。我无法通过以下命令

解压缩

以下文件

file.z01,file.zo2,file.zo3....file.zip

然后我在命令

下运行

hadoop fs -cat /tmp/Links.txt.gz | gzip -d | hadoop fs -put - /tmp/unzipped/Links.txt

然后出现错误

cat: Unable to write to output stream

我期望的是将这些拆分文件解压缩到Hadoop特定文件夹中

Answer 1

不清楚Links.txt.gz与.zip零件文件之间的关系...

Hadoop并不真正了解ZIP格式（尤其是拆分格式），并且gzip -d仍然无法在.zip文件上运行。

Zip nor gzip在Hadoop处理中是可拆分的（读为“可以并行计算”），因此，由于WinZip支持BZ2格式，因此我建议您切换到该格式，并且不需要创建拆分Windows中的文件，除非要更快地上传文件...

旁注：hadoop fs -cat /input | <anything> | hadoop fs -put - /output不会在“在Hadoop中拆分” ...您正在将文件的原始文本复制到本地缓冲区，然后在本地进行操作，然后有选择地将其流回HDFS。