我正在使用Hadoop MapReduce。我在HDFS中有数据,每个文件中的数据已经排序。是否有可能强制MapReduce在映射阶段后不采用数据?我试图将map.sort.class更改为no-op,但它不起作用(即数据没有像我预期的那样排序)。有没有人尝试做类似的事情并设法实现它?
答案 0 :(得分:0)
我认为这取决于您想要的样式结果,排序结果或未排序的结果?
如果你需要对结果进行排序,我认为hadoop不适合做这项工作。有两个原因:
如果你不需要对结果进行排序,我认为这个补丁可能是你想要的:
在地图输出中不支持排序数据流并减少合并短语:https://issues.apache.org/jira/browse/MAPREDUCE-3397