如何使用hadoop流在hdfs上的数据集中进行grep

时间:2016-07-25 23:56:29

标签: hdfs hadoop-streaming

我有一个庞大的数据集位于hdfs中,我希望从中获取一些术语。什么是haddop流命令呢? (请注意我不想使用PIG)

1 个答案:

答案 0 :(得分:1)

您可以使用此命令: -

hadoop jar {path_to_jar} /hadoop-streaming.jar -Dmapreduce.job.queuename = default -Dstream.non.zero.exit.is.failure = false -Dmapred.job.name =“grepper”-Dmapred.reduce .tasks = 1 -input / tmp / {input_path} -output / tmp / {output_path} -mapper'grep searchTerm'