使用Apache Pig从文本文件中获取备用行

时间:2015-04-20 07:58:34

标签: hadoop apache-pig

我有一个包含超过1000行文本的文本文件,我想处理该文本文件中的备用行。即,第一个生产线2,然后是第4行,第6行。那么如何使用Apache Pig

从文本文件中获取这些备用行

2 个答案:

答案 0 :(得分:0)

您可以在复制到HDFS之前预处理文件。 Sed和AWK对于这种数据操作非常有用。

sed -n '0~2p' 'input file name' > 'output file name'

答案 1 :(得分:0)

编写一个扩展FilterFunc的Pig UDF。在UDF中使用计数器在每行传入时递增值。过滤具有奇数计数器值的行。

希望这有帮助。