Hadoop在日期之间获得时差

时间:2014-12-03 23:12:04

标签: hadoop mapreduce hadoop-partitioning

我在hadoop中挣扎着这样的事情

由于我的mapper

,我得到了关注
KeyValue1, 2014-02-01 20:42:00
KeyValue1, 2014-02-01 20:45:12
KeyValue1, 2014-05-01 10:35:02
KeyValue2, 2014-03-01 01:45:12
KeyValue2, 2014-03-01 02:08:18
KeyValue3, 2014-02-01 20:45:12
KeyValue4, 2015-02-01 05:45:12
KeyValue4, 2013-02-01 10:45:12

继续......

在一天结束时我想要这个;

 KeyValue1, TimeDifference(first occurrence - last occurrence)
 KeyValue2, TimeDifference(first occurrence - last occurrence)
 KeyValue3, -occured once-
 KeyValue4, TimeDifference(first occurrence - last occurrence)

非常感谢任何输入。干杯

1 个答案:

答案 0 :(得分:0)

有多种方法。我建议使用复合键。创建自定义分区程序,KeyComparator和GroupComparator。然后在减速机一侧,您可以简单地选择第一行和最后一行并采取不同之处。