我有一个来自 API 的 XML 元素(XML 的一部分),它返回大量 XML。我想将其转换为 AVRO 模式,以便我可以进一步处理并移动到 Hive 表中。
示例:
<groups>
<subgroup id="a1">Squad</subgroup>
<subgroup id="a2">Service</subgroup>
<subgroup id="a3">Development</subgroup>
</group>
我尝试了这个模式,但我错过了捕获组值的数组
{
"type": "record",
"name": "group",
"fields":[{
"name": "id",
"type": "string"
},
{
"name": "subgroup",
"type": "string"
}]
}
我看到我需要定义包含数组而不是记录的组,但我无法获取子组值。我还无法弄清楚 avro 模式。你能帮忙吗?