使用Pig Script删除文件的第一行和最后一行

时间:2016-10-14 10:16:15

标签: hadoop apache-pig bigdata

我想使用pig脚本删除HDFS中文件的第一行和最后一行/行。我尝试使用 Rank 来实现这一点并且它有效但我应该知道删除它的最后一个等级号但是我的文件是动态的它可以有更多或更少的行,因为我无法找到任何东西。请帮忙

修改 我的数据很大,所以我无法创建架构,也无法将它们分组使用 MIN()如何实现这一目标?

1 个答案:

答案 0 :(得分:2)

一旦你有Rank可用,你可以通过MIN和MAX eval函数得到你要排除的第一个和最后一个等级(即你文件的第一行和最后一行)。这样您就不需要对秩过滤器进行硬编码。

  1. Eval function MAX
  2. Eval function MIN
  3. 注意:这适用于猪版本0.16.0。