MapReduce:使用Python编写序列文件[Streaming]

时间:2017-03-14 04:46:24

标签: hadoop mapreduce hadoop-streaming

我正在尝试在MapReduce中编写序列文件。我用java成功完成了它,但我不知道如何使用python。

谢谢!

1 个答案:

答案 0 :(得分:1)

Hadoop接受Streaming命令选项-outputformat
要将输出文件生成为序列文件,请使用-outputformat SequenceFileOutputFormat

例如:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -outputformat org.apache.hadoop.mapred.SequenceFileOutputFormat\
    -mapper MapperClass \
    -reducer ReducerClass

默认情况下,-inputformat-outputformat分别设为TextInputFormatTextOutputFormat