仅限地图作业

时间:2015-08-11 17:37:18

标签: hadoop mapreduce

对于只涉及Map任务而没有减速器的作业,是否有任何真实的好用例/示例。只需要设置一个只触发映射器而不需要减少器的作业。

2 个答案:

答案 0 :(得分:3)

我做了很多Map-Only Jobs ....这里有几个例子。

  1. 您有一个每天构建的分类模型,您需要使用该分类器对所有数据进行分类。不需要减少,只需从分布式缓存(或从数据库等远程资源)加载分类器,并在映射器的map()函数内部进行分类并将结果写入某处。
  2. 对类似HBase表的内容执行数据清理。读入映射器中的每一行,如果它与某些条件语句匹配,则删除它。这里不需要减少。
  3. 基本上,如果您不需要合并或汇总数据,您只需要对每个数据执行重复的连续处理,您通常不需要减速器。我还会说,如果你不需要减速器,那么你可能会问自己,你是否可以通过Apache Storm或其他处理模型获得更好的开销。

答案 1 :(得分:0)

当然!

想象一下,您只需用长度替换每个单词,而不是着名的单词计数问题。

这样做,你将每个单词映射到它的长度,你永远不会减少任何东西!

Hello map reduce将成为5 3 6