如何使用apache pig filter找到' .PDF'

时间:2015-05-09 05:08:04

标签: apache-pig

我在HDFS中有一个文件/pigmix.txt,其中包含不同格式的文件列表,例如.PDF.DOC.PPT等。我只想过滤{{ 1}}。我怎样才能使用apache pig filter功能呢?

1 个答案:

答案 0 :(得分:2)

您可以尝试以下过滤器命令吗?

<强>输入

file1.txt
file2.PDF
file3.doc
file4.ppt
file5.pdf

<强> PigScript:

A = LOAD 'input' USING PigStorage() AS (filename:chararray);
B = FILTER A BY filename matches '.*\\.(pdf|PDF)$';
DUMP B;

<强>输出:

(file2.PDF)
(file5.pdf)