我想按日期(key=date
,value=big_json
)分割作业的输出。
在hadoop1中,我有一个特殊的Java类,继承自MultipleTextOutputFormat
。
据我所知,这在hadoop2中已被弃用。
与...结合使用 org.apache.hadoop.mapreduce.lib.output.MultipleOutputs重新创建 org.apache.hadoop.mapred.lib.MultipleTextOutputFormat的行为 (等)旧的Hadoop API。
但我真的不明白如何在我的剧本中使用它。我应该使用哪些参数?
hadoop jar /usr/local/share/hadoop/tools/lib/hadoop-streaming-2.6.0-cdh5.4.4.jar -D mapred.job.name = split-parsed-logs -D mapred.reduce。 tasks = 140 -D mapred.task.timeout = 10000000 -mapper python -m timestamp-and-json -reducer org.apache.hadoop.mapred.lib.IdentityReducer -input / tmp / parsed_logs -output / tmp / splitted_logs -file / home / user / app.mod -cmdenv PYTHONPATH = app.mod -outputformat org.apache.hadoop.mapreduce.lib.output.MultipleOutputs