带有二进制输入的Hadoop Streaming Job?

时间:2013-02-21 21:02:29

标签: python hadoop hadoop-streaming

我希望将一种格式的二进制文件转换为SequenceFile。

我有一个Python脚本,它在stdin上采用这种格式,可以输出我想要的任何内容。

输入格式不是基于行的。单个记录本身是二进制的,因此输出格式不能用\ n分隔或分成行。

我可以使用Hadoop Streaming接口来使用二进制格式吗?如何生成二进制输出格式?

我认为答案是“否”,除非我另有说法。

1 个答案:

答案 0 :(得分:0)

您可以考虑使用NullWritable作为输出,并直接在python脚本中生成SequenceFile。您可以在github中查找hadoop-python项目以查看候选代码:虽然它确实有点大/重,它确实处理序列文件生成。