我有一个庞大的数据集位于hdfs中,我希望从中获取一些术语。什么是haddop流命令呢? (请注意我不想使用PIG)
答案 0 :(得分:1)
您可以使用此命令: -
hadoop jar {path_to_jar} /hadoop-streaming.jar -Dmapreduce.job.queuename = default -Dstream.non.zero.exit.is.failure = false -Dmapred.job.name =“grepper”-Dmapred.reduce .tasks = 1 -input / tmp / {input_path} -output / tmp / {output_path} -mapper'grep searchTerm'