应用错误收集

时间：2017-02-13 12:54:56

标签： python hadoop mapreduce hadoop-streaming

我有一个包含200列的表格，其中我需要列表中提到的大约50列，根据列＆＃39;时间戳＆＃39;以及过去24个月的行数。

我对映射器下的内容以及reducer下的内容感到困惑？

由于它只是转换，它是否只有映射器阶段，或过滤24个月的行将在减速器下？我不确定这是否完全有用是什么map-reduce。

我正在使用带有hadoop流的python。

答案 0 :(得分：0)

所以，你有一个包含200列（比如T）的表，一个单独的条目列表（比如说L）从T中选出，最后24小时（从T中的时间戳开始）。

MapReduce，mapper确实按顺序给出T的条目。在mapper进入map（）之前，我在setup（）中将代码块从L中读取并使其变得方便（使用可行的数据结构来保存数据列表）。现在，您的代码应该包含两个检查/条件1）如果T中的条目包含/匹配L.如果是，则检查2）数据是否在24小时范围内。

完成。您的输出是您所期望的。不，这里需要减速器，至少要做这么多。

快乐的Mapreducing。