在Pig中查找和格式化单词

时间:2014-06-09 21:46:31

标签: json apache-pig

我有一个文件,其中每行数据都是json格式,但整个文件不是。我正在使用猪来混淆/格式化它:

value1a | value2a | ... 
value1b | value2b | ...

等等,以及获取列名列表。

我能够搞砸它,并采取以下形式:

{
column1
value1a
column2
value2a
....
}
{
.
.
.
{
...
} 

每行以{开头,以}结尾。从那里,我想如上所述格式化数据。

猪可以这样做吗?我还没弄清楚。尝试创建一个可以接受我想要的输入的独立加载器会更简单吗?是否有一种简单的方法来格式化所选的值?

1 个答案:

答案 0 :(得分:0)

我用UDF解决了这个问题,给定了模式的字符串,将解析key:value对,然后以(value1a, value2a, value3a...)

的形式吐出所有内容

从那里,只需要用管道替换逗号。

潜在的过度杀伤,但它完成了工作:)