标签: apache-pig
这是一个猪拉丁语问题。我的数据有3个字段如下:
usrid时间距离
020204 09:23:45 350.1103
020204 09:29:48 350.1522
222292 14:01:34 1.992134
如果有另一条线具有相同的usrid,我想删除一条线,这样两条线之间的时间间隔小于10分钟。例如,必须删除第2行,因为第1行具有相同的usrid,并且2之间的时间间隔仅为6分钟。
答案 0 :(得分:0)
请参阅此,
Pig de-duplicate events occuring within 1 minute of each other
同样的要求。滑动时间窗口。问题中存在可能的解决方案/建议