我有一个大表,它是在Hue with Pig Editor中生成的,包含数十万条记录。 Pig返回一些部分文件和单独的.pig_header和.pig_schema文件。 我需要将所有部分文件和标题作为.txt格式的完整表格。 我可以用getmerge命令来做到这一点:
-- To delete schema from output folder
fs -rm /OUTPUT_folder/.pig_schema
--To merge all the part files and header from output folder and to save result in .txt file
fs -getmerge /OUTPUT_folder/* /Another_folder/Result.txt
我想问一下Cloudera中是否有任何方法可以在不使用getmerge命令的情况下获得这个完整的表格?
也许Cloudera或命令中有一个允许一次组合部分文件的软件。
然后我只需打开这个表,所有列的标题都是“排序很好的”,在色调中使用这个目标会更好吗?
答案 0 :(得分:0)
你可以尝试做一个最终的GROUP BY ALL和一个ORDER BY跟随FOREACH FLATTEN(),这样所有的记录都会进入一个reducer,所以只能在一个文件中。