Apache PIG - 如何更改标准输出名称" part-r-00000"文件?

时间:2015-04-28 23:03:42

标签: hadoop apache-pig hadoop2

我有一个.pig脚本,用于创建包含一些计算数据的文件。 我希望输出文件名为" result.txt"而不是毫无意义的标准输出名称" part-r-00000"。

我的.pig脚本中的最后一个条目是

  

将C存储到'结果'使用PigStorage();

因此"结果"是HDFS中应存储result.txt的文件夹的名称。

我该怎么做?

1 个答案:

答案 0 :(得分:1)

part-r-XXXXX并非毫无意义,具体取决于您打算如何使用它们。如果您需要将此猪脚本的结果加载到另一个猪脚本中,您可以这样做:

A = LOAD 'result' USING PigStorage() AS (...) ;

由于LOAD可以将目录作为输入,并将加载该目录中的每个文件。

如果您需要将输出(本地)作为单个文本文件处理,那么PIG内置的任何内容都无法实现。您需要编写一个脚本来从hdfs中提取结果并将所有part-r-XXXXX文件连接在一起。