如何使用apache pig递归加载文件

时间:2014-03-14 23:11:04

标签: hadoop apache-pig

我对Pig很新,我有一个非常基本的问题:我可以让make Pig加载目录中的所有文件,包括子文件夹中的文件吗? 以下是我的工作方式:

records = LOAD '/worldwide/data/' USING PigStorage() AS (event:chararray, user:chararray);

此处,repo/data可能包含

等子文件夹
repo/data/region/cluster1
repo/data/region/cluster2 

我是否可以从这些子目录和可能在将来添加的新目录中加载所有内容?

1 个答案:

答案 0 :(得分:2)

确认上述语句正常工作,并将子目录中的所有数据加载到记录变量中。