在嵌套字段具有下划线的Hive中映射JSON

时间:2014-07-10 19:24:14

标签: json hive bson

我们正在尝试创建一个模式来将大量JSON结构加载到Hive中。但是,我们遇到了一个问题,因为某些字段具有名称的前导下划线 - 在根级别,这很好,但是我们还没有找到一种方法使其适用于嵌套字段。

示例JSON:

{
    "_id" : "319FFE15FF908EDD86B7FDEADBEEFBD8D7284128841B14AA6A966923C268DF39",
    "SomeThing" : 
    {
            "_SomeField"     : 22,
            "AnotherField"   : 2112,
            "YetAnotherField":    1
    }
 . . . etc . . . .

使用如下架构:

create table testSample
( 
    id string, 
    something struct
    <
        somefield:int,
        anotherfield:bigint, 
        yetanotherfield:int
    >
) 
row format serde 'org.openx.data.jsonserde.JsonSerDe' 
with serdeproperties
(
    "mapping.id"        = "_id",
    "mapping.somefield" = "_somefield"
);

此架构构建正常 - 但是,在加载上面的示例后,&#34; somefield&#34; (嵌套的+前导下划线)始终为null(所有其他值都存在且正确)。

我们一直在尝试很多语法组合,但无济于事。

是否有人知道技巧是否在其名称中带有前导下划线的嵌套字段?

干杯!

1 个答案:

答案 0 :(得分:2)

在这里回答我自己的问题:没有技巧,因为你不能。

然而,这是一个简单的解决方法:您可以告诉Hive在创建架构时将名称视为文字。如果这样做,您还需要使用相同的文字语法进行查询。在上面的例子中,它看起来像:

`_something` struct<rest_of_definitions>

没有任何特殊的serde属性。 然后在查询中再次使用:

select stuff.`_something` from sometable;

例如,架构:

create table testSample
( 
    id string, 
    something struct
    <
        `_somefield`:int,
        anotherfield:bigint, 
        yetanotherfield:int
    >
) 
row format serde 'org.openx.data.jsonserde.JsonSerDe' 
with serdeproperties("mapping.id" = "_id");

输入JSON,如:

{ 
    "_id": "someuid", 
    "something": 
    { 
        "_somefield": 1, 
        "anotherfield": 2, 
        "yetanotherfield": 3 
    }
}

使用如下查询:

select something.`_somefield` 
from testSample
where something.anotherfield = 2;