hadoop2流媒体作业的多个输出文件

时间:2015-09-25 14:21:25

标签: java python hadoop yarn

我想按日期(key=datevalue=big_json)分割作业的输出。

在hadoop1中,我有一个特殊的Java类,继承自MultipleTextOutputFormat。 据我所知,这在hadoop2中已被弃用。

The documentation points out

  

与...结合使用   org.apache.hadoop.mapreduce.lib.output.MultipleOutputs重新创建   org.apache.hadoop.mapred.lib.MultipleTextOutputFormat的行为   (等)旧的Hadoop API。

但我真的不明白如何在我的剧本中使用它。我应该使用哪些参数?

  

hadoop jar /usr/local/share/hadoop/tools/lib/hadoop-streaming-2.6.0-cdh5.4.4.jar -D mapred.job.name = split-parsed-logs -D mapred.reduce。 tasks = 140 -D mapred.task.timeout = 10000000 -mapper python -m timestamp-and-json -reducer org.apache.hadoop.mapred.lib.IdentityReducer -input / tmp / parsed_logs -output / tmp / splitted_logs -file / home / user / app.mod -cmdenv PYTHONPATH = app.mod -outputformat org.apache.hadoop.mapreduce.lib.output.MultipleOutputs

0 个答案:

没有答案