我们正在尝试创建一个模式来将大量JSON结构加载到Hive中。但是,我们遇到了一个问题,因为某些字段具有名称的前导下划线 - 在根级别,这很好,但是我们还没有找到一种方法使其适用于嵌套字段。
示例JSON:
{
"_id" : "319FFE15FF908EDD86B7FDEADBEEFBD8D7284128841B14AA6A966923C268DF39",
"SomeThing" :
{
"_SomeField" : 22,
"AnotherField" : 2112,
"YetAnotherField": 1
}
. . . etc . . . .
使用如下架构:
create table testSample
(
id string,
something struct
<
somefield:int,
anotherfield:bigint,
yetanotherfield:int
>
)
row format serde 'org.openx.data.jsonserde.JsonSerDe'
with serdeproperties
(
"mapping.id" = "_id",
"mapping.somefield" = "_somefield"
);
此架构构建正常 - 但是,在加载上面的示例后,&#34; somefield&#34; (嵌套的+前导下划线)始终为null(所有其他值都存在且正确)。
我们一直在尝试很多语法组合,但无济于事。
是否有人知道技巧是否在其名称中带有前导下划线的嵌套字段?
干杯!
答案 0 :(得分:2)
在这里回答我自己的问题:没有技巧,因为你不能。
然而,这是一个简单的解决方法:您可以告诉Hive在创建架构时将名称视为文字。如果这样做,您还需要使用相同的文字语法进行查询。在上面的例子中,它看起来像:
`_something` struct<rest_of_definitions>
没有任何特殊的serde属性。 然后在查询中再次使用:
select stuff.`_something` from sometable;
例如,架构:
create table testSample
(
id string,
something struct
<
`_somefield`:int,
anotherfield:bigint,
yetanotherfield:int
>
)
row format serde 'org.openx.data.jsonserde.JsonSerDe'
with serdeproperties("mapping.id" = "_id");
输入JSON,如:
{
"_id": "someuid",
"something":
{
"_somefield": 1,
"anotherfield": 2,
"yetanotherfield": 3
}
}
使用如下查询:
select something.`_somefield`
from testSample
where something.anotherfield = 2;