标签: python apache-spark hive hive-serde apache-spark-xml
我已经准备好了大型XML,并且想从XML中检索属性/标记及其值,并使用配置单元或spark存储到数据湖表中。属性/标签是嵌套的,具有很长的层次结构。 我尝试使用配置单元Serde,但是由于层次结构长且结构复杂,某些列无法正确填充。还有其他选择吗?需要帮助以进一步进行操作。