performance - Hadoop使用字段投影Mapreduce提高性能

我们计划实施一个data projection layer，它将从数据字段集中仅选择subset个字段，以减少发送到地图缩减处理的数据量。

Question：这种方法是否会提高map-reduce工作的性能？与在mapper中使用subString()仅选择特定字段相比较？这肯定会节省存储空间。

我们将使用一些示例数据对其进行测试，但从技术上来说，建议是什么？ Hadoop本身是否处理它？</ p>

示例：

输入数据：sensor_id, location, day, time, month, year, temperature, humidity, quality, wind_direction, wind_velocity

投影输出：year, temperature

任何帮助都将不胜感激。