我在HDFS中有一个文件/pigmix.txt
,其中包含不同格式的文件列表,例如.PDF
,.DOC
,.PPT
等。我只想过滤{{ 1}}。我怎样才能使用apache pig filter功能呢?
答案 0 :(得分:2)
您可以尝试以下过滤器命令吗?
<强>输入强>
file1.txt
file2.PDF
file3.doc
file4.ppt
file5.pdf
<强> PigScript:强>
A = LOAD 'input' USING PigStorage() AS (filename:chararray);
B = FILTER A BY filename matches '.*\\.(pdf|PDF)$';
DUMP B;
<强>输出:强>
(file2.PDF)
(file5.pdf)