我正在使用包含与美国国家航空航天局MODIS网格对应的数据矩阵的大量文件 - 网格将地球表面分成21,600 x 43,400像素阵列。此特定数据集为每个像素提供一个整数值。
我有大约200个文件,每月一个文件,需要为每个像素创建一个时间序列。
我的问题是,对于采用其中一个文件的地图任务 - 我应该将网格切割成24,000像素的块,并将其作为值(以位置和时间段作为键)发出,或者只需为每个像素发出一个键值对,在规范字数统计示例中处理像素一样的像素?
分块工作正常,它只是在我的程序中引入了一个任意的“块大小”变量。我的感觉是,这会在IO上节省相当多的时间,但这只是一种感觉,我期待着实际的知情意见!
答案 0 :(得分:0)
在我工作的Hadoop项目中,我可以确认K,V对的数量对负载,CPU时间和IO有直接影响。如果你可以限制块的数量并仍然保持足够的可扩展性,我肯定会去那里。