我希望将一种格式的二进制文件转换为SequenceFile。
我有一个Python脚本,它在stdin上采用这种格式,可以输出我想要的任何内容。
输入格式不是基于行的。单个记录本身是二进制的,因此输出格式不能用\ n分隔或分成行。
我可以使用Hadoop Streaming接口来使用二进制格式吗?如何生成二进制输出格式?
我认为答案是“否”,除非我另有说法。
答案 0 :(得分:0)
您可以考虑使用NullWritable作为输出,并直接在python脚本中生成SequenceFile。您可以在github中查找hadoop-python项目以查看候选代码:虽然它确实有点大/重,它确实处理序列文件生成。