如何在cloudera中合并零件文件和标题

时间:2014-01-30 08:58:16

标签: hadoop apache-pig cloudera hue impala

我有一个大表,它是在Hue with Pig Editor中生成的,包含数十万条记录。 Pig返回一些部分文件和单独的.pig_header和.pig_schema文件。 我需要将所有部分文件和标题作为.txt格式的完整表格。 我可以用getmerge命令来做到这一点:

-- To delete schema from output folder
    fs -rm /OUTPUT_folder/.pig_schema
--To merge all the part files and header from output folder and to save result in .txt file  
    fs -getmerge /OUTPUT_folder/* /Another_folder/Result.txt

我想问一下Cloudera中是否有任何方法可以在不使用getmerge命令的情况下获得这个完整的表格?

也许Cloudera或命令中有一个允许一次组合部分文件的软件。

然后我只需打开这个表,所有列的标题都是“排序很好的”,在色调中使用这个目标会更好吗?

1 个答案:

答案 0 :(得分:0)

你可以尝试做一个最终的GROUP BY ALL和一个ORDER BY跟随FOREACH FLATTEN(),这样所有的记录都会进入一个reducer,所以只能在一个文件中。