如何使用pig脚本处理以下场景。 如果我们有连续的行,前两列具有相同的数据,则只需要选择第一行,并且需要丢弃其余的行。此外,这需要在时间分类后完成。
实施例: 输入记录:
**Account** **id** **time**
account 1 20150214180057
account 1 21869 20150214180059
account 1 41866 20150214175753
account 1 41866 20150214176103
account 1 21869 20150214190059
account 1 41866 20150214185753
account 1 78343 20150214185900
account 1 78343 20150214189753
account 1 78343 20150214190003
account 1 21869 20150214190003
account 1 98766 20150214190003
account 1 98766 20150214190003
输出记录
**Account** **id** **time**
account 1 41866 20150214175753
account 1 21869 20150214180059
account 1 41866 20150214185753
account 1 78343 20150214185900
account 1 21869 20150214190003
account 1 98766 20150214190003
account 1 21869 20150214190059
我尝试使用Rank,但问题是所有类似帐号和记录的记录id在一个等级下,当我选择第一个记录时,剩余的记录被丢弃。所以这个逻辑不起作用。
请告诉我如何解决这个问题?
感谢。