我有一个分割的zip文件(由窗口中的 winzip创建),然后通过ftp传输到hadoop服务器。 我无法通过以下命令
解压缩以下文件
file.z01,file.zo2,file.zo3....file.zip
然后我在命令
下运行hadoop fs -cat /tmp/Links.txt.gz | gzip -d | hadoop fs -put - /tmp/unzipped/Links.txt
然后出现错误
cat: Unable to write to output stream
我期望的是将这些拆分文件解压缩到Hadoop特定文件夹中
答案 0 :(得分:0)
不清楚Links.txt.gz
与.zip
零件文件之间的关系...
Hadoop并不真正了解ZIP格式(尤其是拆分格式),并且gzip -d
仍然无法在.zip
文件上运行。
Zip nor gzip在Hadoop处理中是可拆分的(读为“可以并行计算”),因此,由于WinZip支持BZ2格式,因此我建议您切换到该格式,并且不需要创建拆分Windows中的文件,除非要更快地上传文件...
旁注:hadoop fs -cat /input | <anything> | hadoop fs -put - /output
不会在“在Hadoop中拆分” ...您正在将文件的原始文本复制到本地缓冲区,然后在本地进行操作,然后有选择地将其流回HDFS。