使用AWS Glue在单独的元素中解析具有列名和值的xml

时间:2019-08-20 05:37:29

标签: aws-glue

嗨,我有来自外部源的大量XML文件,这些文件必须解析为数据库。 他们看起来像这样:

<root>
  <object id="123">
    <attributes>
      <attribute>
        <type>foo</type>
        <value>bar</value>
      </attribute>
      <attribute>
        <type>qwe</type>
        <value>asd</value>
      </attribute>
    </attributes>
  </object>
</root>

最明显的方法是使用“对象”作为分类器,但我不知道如何将属性映射到列及其值。我尝试过的另一种方法是将属性用作分类器,但比起解决键值问题还差得远,而且我也缺少对象ID。 我开始觉得最好先在胶水之外将XML预格式化为更可用的格式。

1 个答案:

答案 0 :(得分:0)

我看到了aws-glue标签。看起来它们可以处理XML吗?:aws-glue-programming-etl-format

因此,“我开始觉得最好先将XML预先格式化为胶水之外的一种更有用的格式”,也许转换为json会有所帮助吗?您可以在线找到许多工具。