我正在阅读与HadoI的HIPI图像处理API相关的论文: http://cs.ucsb.edu/~cmsweeney/papers/undergrad_thesis.pdf
在解释其中的协方差示例时,本文说“因为HIPI为每个地图任务分配一个图像,所以很容易随机抽样100个补丁的图像并执行此计算”。
但是本文中展示的第一个数字描绘了一个架构,其中多个图像被输入到一个地图任务中!
令人惊讶的是,他们写过一个图像由一个地图任务处理,因为它会产生太多的地图任务,因为它们也解决了小文件问题。
如果这是真的,那么使用MultithreadedMapper的Sequence File是一个更好的选择,我是对还是错?
提前致谢..
答案 0 :(得分:0)
虽然我无法解释作者在论文中所说的内容,但看看HIPI的API,我只能看到一个InputFormat:
这适用于ImageBundle,它听起来像是一个文件的集合(包)。
我想作者可能会说的是:
因为HIPI为每个地图功能分配一个图像,所以可以很容易地为100个色块随机采样图像并执行此计算
查看相关Covariance example的代码支持这一理论。