binaryfiles - 如何在mrjob中读取二进制输入文件？

我的MapReduce程序的输入是一组二进制文件。我希望能够通过mrjob阅读它们。经过一些研究，似乎我必须编写一个自定义的hadoop流媒体jar。有更简单的方法吗？或者这样的罐子随时可用？更多详情如下。

输入文件只是一个8字节整数的序列。我想让我的mapper函数一次调用2个整数。

我首先想到我可以转换成pickle二进制格式，然后指定：

INPUT_PROTOCOL = mrjob.protocol.PickleProtocol。

但是这会产生错误：无法解码输入。我也觉得mrjob只能使用pickle ascii格式（而不是二进制）。因为否则hadoop流将如何处理看起来像换行符的字节。 mrjob源代码似乎证实了这一点。

另一种选择是编写一个自定义的hadoop流媒体jar。 mrjob可以选择指定这样的jar。但是作为一个不熟悉hadoop / Java的人，我更喜欢基于python的解决方案。