想知道是否有其他人遇到过这个问题,以及它是如何解决的。
My Pig脚本“需要”以XML格式输出。主体按如下方式构建XML:
<Item><Val1>abc</Val1><Val2>qwe</Val2></Item>
<Item><Val1>tre</Val1><Val2>bnm</Val2></Item>
这个问题是它不是有效的XML。我需要包装它:
<Items>
<Item>...</Item>
</Items>
但是如何在Pig / Hadoop中完成?输出文件在多个part-XXXXX文件中拆分,因此只能在合并时完成。
或许XML完全是错误的方法,它总是JSON!
由于
邓肯
答案 0 :(得分:1)
这是一种可能的解决方案。您可以在GROUP ALL
之前立即执行STORE
以确保只输出一个part-XXXXX
文件,这样您就可以使用所需的<Items>
标记包装整个XML块。< / p>