标签: hadoop mapreduce cloud hdfs
我想解释一下我的问题:我想处理一组图像in。jpg`格式。我们假设图像的大小是1 GB。我想在地图缩小框架上做到这一点,以改进细化。
in
我的想法是在64 MB组中分割1 GB的图像(因此最多16组图像)。因为它与HDFS块的大小相同,并且可以减少传输块的开销。
我不明白如何以原子方式分割图像。我知道我应该实现FileInputFormat类和方法getSplit()。但我希望能帮助你做到这一点。
FileInputFormat
getSplit()