我正在开展一个侧面项目,我们希望在hadoop mapreduce程序中处理图像(最终部署到Amazon的弹性mapreduce)。进程的输入将是所有文件的列表,每个文件都附加一些额外的数据(左下角的纬度/长位置 - 这些是航拍照片)
实际处理需要在Python代码中进行,因此我们可以利用Python Image Library。我可以找到的所有Python流示例都使用stdin和进程文本输入。我可以通过stdin将图像数据发送到Python吗?如果是这样,怎么样?
我在Java中编写了一个Mapper类,它接受文件列表并将名称,额外数据和二进制内容保存到序列文件中。我想也许我需要编写一个自定义Java映射器,它接收序列文件并将其传递给Python。这是正确的方法吗?如果是这样,那么Java应该将图像管道输出,而Python应该用什么来读取它们?
如果不是很明显,我对Java OR Python并不十分熟悉,所以我也可能只是因为我对这两种语言的介绍而咀嚼的方式超过了我...
答案 0 :(得分:0)
我可以看到一些可能的方法: