我有一个.pig脚本,用于创建包含一些计算数据的文件。 我希望输出文件名为" result.txt"而不是毫无意义的标准输出名称" part-r-00000"。
我的.pig脚本中的最后一个条目是
将C存储到'结果'使用PigStorage();
因此"结果"是HDFS中应存储result.txt的文件夹的名称。
我该怎么做?
答案 0 :(得分:1)
part-r-XXXXX
并非毫无意义,具体取决于您打算如何使用它们。如果您需要将此猪脚本的结果加载到另一个猪脚本中,您可以这样做:
A = LOAD 'result' USING PigStorage() AS (...) ;
由于LOAD
可以将目录作为输入,并将加载该目录中的每个文件。
如果您需要将输出(本地)作为单个文本文件处理,那么PIG内置的任何内容都无法实现。您需要编写一个脚本来从hdfs中提取结果并将所有part-r-XXXXX
文件连接在一起。