如何划分map-reduce任务?

时间:2017-02-13 12:54:56

标签: python hadoop mapreduce hadoop-streaming

我有一个包含200列的表格,其中我需要列表中提到的大约50列, 根据列'时间戳'以及过去24个月的行数。

我对映射器下的内容以及reducer下的内容感到困惑?

由于它只是转换,它是否只有映射器阶段,或过滤24个月的行将在减速器下?我不确定这是否完全有用 是什么map-reduce。

我正在使用带有hadoop流的python。

1 个答案:

答案 0 :(得分:0)

所以,你有一个包含200列(比如T)的表,一个单独的条目列表(比如说L)从T中选出,最后24小时(从T中的时间戳开始)。

MapReduce,mapper确实按顺序给出T的条目。在mapper进入map()之前,我在setup()中将代码块从L中读取并使其变得方便(使用可行的数据结构来保存数据列表)。现在,您的代码应该包含两个检查/条件1)如果T中的条目包含/匹配L.如果是,则检查2)数据是否在24小时范围内。

完成。您的输出是您所期望的。不,这里需要减速器,至少要做这么多。

快乐的Mapreducing。