通过比较线路与其他线路的CAN PIG滤波器?

时间:2013-07-16 18:21:15

标签: apache-pig

这是一个猪拉丁语问题。我的数据有3个字段如下:

usrid时间距离

020204 09:23:45 350.1103

020204 09:29:48 350.1522

222292 14:01:34 1.992134

如果有另一条线具有相同的usrid,我想删除一条线,这样两条线之间的时间间隔小于10分钟。例如,必须删除第2行,因为第1行具有相同的usrid,并且2之间的时间间隔仅为6分钟。

1 个答案:

答案 0 :(得分:0)

请参阅此,

Pig de-duplicate events occuring within 1 minute of each other

同样的要求。滑动时间窗口。问题中存在可能的解决方案/建议