使用pig脚本

时间:2015-05-07 23:14:24

标签: hadoop apache-pig

如何使用pig脚本处理以下场景。 如果我们有连续的行,前两列具有相同的数据,则只需要选择第一行,并且需要丢弃其余的行。此外,这需要在时间分类后完成。

实施例: 输入记录:

**Account**   **id**        **time**
account 1                20150214180057
account 1     21869      20150214180059
account 1     41866      20150214175753
account 1     41866      20150214176103
account 1     21869      20150214190059
account 1     41866      20150214185753
account 1     78343      20150214185900
account 1     78343      20150214189753
account 1     78343      20150214190003
account 1     21869      20150214190003
account 1     98766      20150214190003
account 1     98766      20150214190003

输出记录

**Account**   **id**       **time**
account 1      41866    20150214175753
account 1      21869    20150214180059
account 1      41866    20150214185753
account 1      78343    20150214185900
account 1      21869    20150214190003
account 1      98766    20150214190003
account 1      21869    20150214190059

我尝试使用Rank,但问题是所有类似帐号和记录的记录id在一个等级下,当我选择第一个记录时,剩余的记录被丢弃。所以这个逻辑不起作用。

请告诉我如何解决这个问题?

感谢。

0 个答案:

没有答案