Question

我有一个包含超过1000行文本的文本文件，我想处理该文本文件中的备用行。即，第一个生产线2，然后是第4行，第6行。那么如何使用Apache Pig？

从文本文件中获取这些备用行

Answer 1

您可以在复制到HDFS之前预处理文件。 Sed和AWK对于这种数据操作非常有用。

sed -n '0~2p' 'input file name' > 'output file name'

Answer 2

编写一个扩展FilterFunc的Pig UDF。在UDF中使用计数器在每行传入时递增值。过滤具有奇数计数器值的行。

希望这有帮助。