我有一个包含超过1000行文本的文本文件,我想处理该文本文件中的备用行。即,第一个生产线2,然后是第4行,第6行。那么如何使用Apache Pig
?
答案 0 :(得分:0)
您可以在复制到HDFS之前预处理文件。 Sed和AWK对于这种数据操作非常有用。
sed -n '0~2p' 'input file name' > 'output file name'
答案 1 :(得分:0)
编写一个扩展FilterFunc的Pig UDF。在UDF中使用计数器在每行传入时递增值。过滤具有奇数计数器值的行。
希望这有帮助。