在hadoop流媒体中的zgrep

时间:2017-03-06 22:18:08

标签: amazon-web-services hadoop amazon-s3

我正试图在S3 / aws&上点击一个zip文件。将输出写入具有相同文件名的新位置

我在s3下面使用,这是将第一个CAT命令的流输出写入hdfs输出的正确方法吗?

hadoop fs -cat s3://analytics/LZ/2017/03/03/test_20170303-000000.tar.gz | zgrep -a -E '*word_1*|*word_2*|word_3|word_4' | hadoop fs -put - s3://prod/project/test/test_20170303-000000.tar.gz

1 个答案:

答案 0 :(得分:0)

  1. 鉴于您正在玩hadoop,为什么不在群集中运行代码?扫描.gzip文件中的字符串很常见,但我不了解.tar文件。
  2. 我个人使用-copyToLocal-copyFromLocal命令将其复制到本地FS并在那里工作。像-cat这样的问题是Hadoop客户端代码中有很多东西被注销,因此管道很可能会带来太大的无关紧要,