在HDFS

时间:2017-03-13 13:45:49

标签: python hadoop zip hdfs object-storage

我将我的代码部署在HDFS上并且有两个基本任务,我无法搞清楚 -

  1. 从ObjectStore获取一个zip文件到HDFS,在HDFS上解压缩,读取它的内容,删除zip和内容。
  2. 在HDFS上创建一些内容,在HDFS上压缩,将其发布到ObjectStore,然后删除zip。
  3. 在引用资源时,在sputil等python脚本中进行压缩/解压缩的常规库不适用于HDFS URL。我尝试查找一些允许它的python库,但没有找到。

    我得到的最接近的解决方案是this,但是当多个文件被压缩在一起时,它会发出一个公平的警告。有人可以用粗体来帮助指向上述任务的解决方案吗?

0 个答案:

没有答案