HIPI api:每个地图任务处理1个图像吗?

时间:2012-03-23 09:21:16

标签: java hadoop mapreduce

我正在阅读与HadoI的HIPI图像处理API相关的论文: http://cs.ucsb.edu/~cmsweeney/papers/undergrad_thesis.pdf

在解释其中的协方差示例时,本文说“因为HIPI为每个地图任务分配一个图像,所以很容易随机抽样100个补丁的图像并执行此计算”。

但是本文中展示的第一个数字描绘了一个架构,其中多个图像被输入到一个地图任务中!

令人惊讶的是,他们写过一个图像由一个地图任务处理,因为它会产生太多的地图任务,因为它们也解决了小文件问题。

如果这是真的,那么使用MultithreadedMapper的Sequence File是一个更好的选择,我是对还是错?

提前致谢..

1 个答案:

答案 0 :(得分:0)

虽然我无法解释作者在论文中所说的内容,但看看HIPI的API,我只能看到一个InputFormat:

这适用于ImageBundle,它听起来像是一个文件的集合(包)。

我想作者可能会说的是:

  

因为HIPI为每个地图功能分配一个图像,所以可以很容易地为100个色块随机采样图像并执行此计算

查看相关Covariance example的代码支持这一理论。