应用错误收集

我想按日期（key=date，value=big_json）分割作业的输出。

在hadoop1中，我有一个特殊的Java类，继承自MultipleTextOutputFormat。据我所知，这在hadoop2中已被弃用。

与...结合使用 org.apache.hadoop.mapreduce.lib.output.MultipleOutputs重新创建 org.apache.hadoop.mapred.lib.MultipleTextOutputFormat的行为（等）旧的Hadoop API。

但我真的不明白如何在我的剧本中使用它。我应该使用哪些参数？

hadoop jar /usr/local/share/hadoop/tools/lib/hadoop-streaming-2.6.0-cdh5.4.4.jar -D mapred.job.name = split-parsed-logs -D mapred.reduce。 tasks = 140 -D mapred.task.timeout = 10000000 -mapper python -m timestamp-and-json -reducer org.apache.hadoop.mapred.lib.IdentityReducer -input / tmp / parsed_logs -output / tmp / splitted_logs -file / home / user / app.mod -cmdenv PYTHONPATH = app.mod -outputformat org.apache.hadoop.mapreduce.lib.output.MultipleOutputs

hadoop2流媒体作业的多个输出文件

0 个答案: