应用错误收集

时间：2011-01-31 17:41:36

标签： hadoop cascading

我正在使用包含与美国国家航空航天局MODIS网格对应的数据矩阵的大量文件 - 网格将地球表面分成21,600 x 43,400像素阵列。此特定数据集为每个像素提供一个整数值。

我有大约200个文件，每月一个文件，需要为每个像素创建一个时间序列。

我的问题是，对于采用其中一个文件的地图任务 - 我应该将网格切割成24,000像素的块，并将其作为值（以位置和时间段作为键）发出，或者只需为每个像素发出一个键值对，在规范字数统计示例中处理像素一样的像素？

分块工作正常，它只是在我的程序中引入了一个任意的“块大小”变量。我的感觉是，这会在IO上节省相当多的时间，但这只是一种感觉，我期待着实际的知情意见！

答案 0 :(得分：0)

在我工作的Hadoop项目中，我可以确认K，V对的数量对负载，CPU时间和IO有直接影响。如果你可以限制块的数量并仍然保持足够的可扩展性，我肯定会去那里。