Question

如何使用pig脚本处理以下场景。如果我们有连续的行，前两列具有相同的数据，则只需要选择第一行，并且需要丢弃其余的行。此外，这需要在时间分类后完成。

实施例：输入记录：

**Account**   **id**        **time**
account 1                20150214180057
account 1     21869      20150214180059
account 1     41866      20150214175753
account 1     41866      20150214176103
account 1     21869      20150214190059
account 1     41866      20150214185753
account 1     78343      20150214185900
account 1     78343      20150214189753
account 1     78343      20150214190003
account 1     21869      20150214190003
account 1     98766      20150214190003
account 1     98766      20150214190003

输出记录

**Account**   **id**       **time**
account 1      41866    20150214175753
account 1      21869    20150214180059
account 1      41866    20150214185753
account 1      78343    20150214185900
account 1      21869    20150214190003
account 1      98766    20150214190003
account 1      21869    20150214190059

我尝试使用Rank，但问题是所有类似帐号和记录的记录id在一个等级下，当我选择第一个记录时，剩余的记录被丢弃。所以这个逻辑不起作用。

请告诉我如何解决这个问题？

感谢。

使用pig脚本

0 个答案: