我想以二进制格式加载一些文件(例如jpegs,但可以是任何二进制格式),以某种方式操作它并将其写回。我想在hadoop上做这个,我想把它写在Cascading框架上。
我是否可以使用二进制接收器/标签用于二进制格式化文件?还有其他方法吗?
我找不到任何东西。我能想到的唯一选择可能是我应该实现我自己的hadoop InputFormat,它将文件读取为字节数组或java ByteBuffer,但我觉得很奇怪没有内置解决方案(因为我确定我我不是第一个遇到这个问题的人。)
如果有人有任何指示,将非常感谢
答案 0 :(得分:2)
您必须编写自己的Hadoop InputFormat
来处理二进制数据,然后将该InputFormat包装在自定义级联Scheme
中。好的一面是,您不需要自定义Tap
。
这一切都来自级联author本人。