mapreduce基于时间的数据分割

时间:2014-12-12 13:17:07

标签: mapreduce

从谷歌解析mlabs数据后,解析后的数据将为每个数据包提供文本记录。我想将数据拆分半小时,以便减速器的数据是半小时。这是获得半小时数据的最佳方式还是有更好的方法。任何人都可以建议我怎么做。

解析数据的格式为:

src            dest         startTime        endTime        bytesTransferred
34.456.67.88   23.456.78.9   3453453454555   3453453994555   4564

由于

1 个答案:

答案 0 :(得分:0)

您可以使用30分钟(1800秒)纪元时间戳的第一秒作为Map发出的键,值是数据记录(或您关心的相同解析字段)。

以这种方式在Reducer上会看到(key,List [DataRecord]),如下所示:

 (30-minute-interval-One-start-second) [(Data Record 1a, Data Record 1b, ... Data Record 1k)]
 (30-minute-interval-Two-start-second) [(Data Record 2a, Data Record 2b, ... Data Record 2k)]
...