避免猪输出文件中的多个标题

时间:2016-01-15 20:06:09

标签: apache-pig

我们使用Pig从包含数千个文件的目录中加载文件,转换它们,然后输出合并输入的文件。

我们注意到输出文件包含每个处理文件的标题记录,即标题在每个文件中多次出现。

有没有办法让每个输出文件只有一个标题?

raw_data = LOAD '$INPUT' 
   USING org.apache.pig.piggybank.storage.CSVExcelStorage(',')

做一些转变

STORE data INTO '$OUTPUT' 
USING  org.apache.pig.piggybank.storage.CSVExcelStorage('|')