我正在尝试在MapReduce中编写序列文件。我用java成功完成了它,但我不知道如何使用python。
谢谢!
答案 0 :(得分:1)
Hadoop接受Streaming命令选项-outputformat
。
要将输出文件生成为序列文件,请使用-outputformat SequenceFileOutputFormat
。
例如:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-outputformat org.apache.hadoop.mapred.SequenceFileOutputFormat\
-mapper MapperClass \
-reducer ReducerClass
默认情况下,-inputformat
和-outputformat
分别设为TextInputFormat
和TextOutputFormat
。