如何在Hadoop中解压缩拆分的zip文件

时间:2018-11-16 04:41:27

标签: hadoop unzip

我有一个分割的zip文件(由窗口中的 winzip创建),然后通过ftp传输到hadoop服务器。 我无法通过以下命令

解压缩

以下文件

file.z01,file.zo2,file.zo3....file.zip

然后我在命令

下运行
hadoop fs -cat /tmp/Links.txt.gz | gzip -d | hadoop fs -put - /tmp/unzipped/Links.txt

然后出现错误

cat: Unable to write to output stream

我期望的是将这些拆分文件解压缩到Hadoop特定文件夹中

1 个答案:

答案 0 :(得分:0)

不清楚Links.txt.gz.zip零件文件之间的关系...

Hadoop并不真正了解ZIP格式(尤其是拆分格式),并且gzip -d仍然无法在.zip文件上运行。

Zip nor gzip在Hadoop处理中是可拆分的(读为“可以并行计算”),因此,由于WinZip支持BZ2格式,因此我建议您切换到该格式,并且不需要创建拆分Windows中的文件,除非要更快地上传文件...

旁注:hadoop fs -cat /input | <anything> | hadoop fs -put - /output不会在“在Hadoop中拆分” ...您正在将文件的原始文本复制到本地缓冲区,然后在本地进行操作,然后有选择地将其流回HDFS。