我们计划实施一个data projection layer
,它将从数据字段集中仅选择subset
个字段,以减少发送到地图缩减处理的数据量。
Question
:这种方法是否会提高map-reduce工作的性能?与在mapper中使用subString()
仅选择特定字段相比较?这肯定会节省存储空间。
我们将使用一些示例数据对其进行测试,但从技术上来说,建议是什么? Hadoop本身是否处理它?</ p>
示例:
输入数据:sensor_id, location, day, time, month, year, temperature, humidity, quality, wind_direction, wind_velocity
投影输出:year, temperature
任何帮助都将不胜感激。