如何在Cascading中读写二进制文件?

时间:2013-07-17 12:52:36

标签: hadoop elastic-map-reduce emr cascading

我想以二进制格式加载一些文件(例如jpegs,但可以是任何二进制格式),以某种方式操作它并将其写回。我想在hadoop上做这个,我想把它写在Cascading框架上。

我是否可以使用二进制接收器/标签用于二进制格式化文件?还有其他方法吗?

我找不到任何东西。我能想到的唯一选择可能是我应该实现我自己的hadoop InputFormat,它将文件读取为字节数组或java ByteBuffer,但我觉得很奇怪没有内置解决方案(因为我确定我我不是第一个遇到这个问题的人。)

如果有人有任何指示,将非常感谢

1 个答案:

答案 0 :(得分:2)

您必须编写自己的Hadoop InputFormat来处理二进制数据,然后将该InputFormat包装在自定义级联Scheme中。好的一面是,您不需要自定义Tap

这一切都来自级联author本人。