从谷歌解析mlabs数据后,解析后的数据将为每个数据包提供文本记录。我想将数据拆分半小时,以便减速器的数据是半小时。这是获得半小时数据的最佳方式还是有更好的方法。任何人都可以建议我怎么做。
解析数据的格式为:
src dest startTime endTime bytesTransferred
34.456.67.88 23.456.78.9 3453453454555 3453453994555 4564
由于
答案 0 :(得分:0)
您可以使用30分钟(1800秒)纪元时间戳的第一秒作为Map发出的键,值是数据记录(或您关心的相同解析字段)。
以这种方式在Reducer上会看到(key,List [DataRecord]),如下所示:
(30-minute-interval-One-start-second) [(Data Record 1a, Data Record 1b, ... Data Record 1k)]
(30-minute-interval-Two-start-second) [(Data Record 2a, Data Record 2b, ... Data Record 2k)]
...