Hadoop使用字段投影Mapreduce提高性能

时间:2016-05-28 06:17:42

标签: performance hadoop mapreduce

我们计划实施一个data projection layer,它将从数据字段集中仅选择subset个字段,以减少发送到地图缩减处理的数据量。

Question:这种方法是否会提高map-reduce工作的性能?与在mapper中使用subString()仅选择特定字段相比较?这肯定会节省存储空间。

我们将使用一些示例数据对其进行测试,但从技术上来说,建议是什么? Hadoop本身是否处理它?<​​/ p>

示例:

输入数据sensor_id, location, day, time, month, year, temperature, humidity, quality, wind_direction, wind_velocity

投影输出year, temperature

任何帮助都将不胜感激。

0 个答案:

没有答案