Pig输出为XML

时间:2013-08-12 15:06:21

标签: xml hadoop apache-pig

想知道是否有其他人遇到过这个问题,以及它是如何解决的。

My Pig脚本“需要”以XML格式输出。主体按如下方式构建XML:

<Item><Val1>abc</Val1><Val2>qwe</Val2></Item>

<Item><Val1>tre</Val1><Val2>bnm</Val2></Item>

这个问题是它不是有效的XML。我需要包装它:

<Items>
<Item>...</Item>
</Items>

但是如何在Pig / Hadoop中完成?输出文件在多个part-XXXXX文件中拆分,因此只能在合并时完成。

或许XML完全是错误的方法,它总是JSON!

由于

邓肯

1 个答案:

答案 0 :(得分:1)

这是一种可能的解决方案。您可以在GROUP ALL之前立即执行STORE以确保只输出一个part-XXXXX文件,这样您就可以使用所需的<Items>标记包装整个XML块。< / p>